楼主: 能者818
1285 32

[量化金融] 手机使用行为预测贷款还款 [推广有奖]

11
mingdashike22 在职认证  发表于 2022-6-2 18:52:50
作者与南美一个中等收入国家的一家电信公司合作,GDPper的人均收入约为6000美元,该公司试图将其预付费用户的一部分过渡到后付费计划。它希望扩大这一子集,以包括那些缺乏或不存在正式财务历史的人。这篇论文也是与我们的组织合作伙伴EFL合作撰写的,EFL也进行心理测量信用评分。在他们的网站上,“EFL Global利用心理测量学、手机、社交媒体、GIS以及传统的人口和金融数据等多种类型的替代数据,为非银行和瘦文件消费者和MSME开发信用评分模型。我们与拉丁美洲、非洲和亚洲的贷款人合作。”http://www.eflglobal.comDarrell本文收集数据时,EFL聘请了Grissen。所有结果均以美元报告。电信公司提供了一组预先选定的用户,让他们有机会切换到具有较低费率的后付费计划,并记录这些用户中谁按时支付了账单。由于电信公司希望在这一初步探索中了解过渡不同类型用户的风险,因此在选择要过渡的客户时,它是宽容和不成熟的。它从creditbureau记录的整个分布中选择了使用电话效率较高的客户(他们更有可能从后付费计费中受益)。这些选定的订户收到一个电话,邀请他们转换到后付费计划;选择参加的人从预付费改为最便宜的后付费计划(每月提供约30美元的循环信贷)。该数据涵盖了7068名接受了后付费计划并选择加入的用户,这是评估电信业绩的相关样本。

12
何人来此 在职认证  发表于 2022-6-2 18:52:53
电信公司意识到,支付电话费对这些用户来说是新的,因此,如果用户没有支付他们的后付费账单,他们会通过短信和其他渠道得到通知,他们的账单很快就会过期。如果消费者逾期超过15天,他们的服务将被取消,并向信贷局报告。在我们的样本中,11%的消费者违约。虽然这种形式的信贷与传统的银行贷款有着不同的特点,但许多新兴的数字信贷形式也是如此;例如,短期贷款阶梯很常见:(Carlson,2017)。对于每个用户,电信部门都会提取移动电话交易记录(Call DetailRecords,简称CDR)。在这种情况下,许多订户也有在信贷局保存的正式财务历史记录;电信公司也收集了这些记录。统计局记录包括报告实体数量、负面报告数量、不同账户余额(包括消费者参与、消费者非参与、抵押、公司和税务债务)以及不同支付状态(正常、过期、注销)余额的快照。它还包括过去2年内每月的债务支付历史(无记录、全部正常、部分未支付、重大违约),并包括作者无法获得电信公司选择规则的汇总分数,或被选中者的信息。这些数据与电信公司为评估不同类型申请人的风险而做出的简单选择一致。在结果样本中,15%的信用局记录缺失,26%的信用局总分完美,41%的信用局总分近乎最差,其余的信用局总分介于两者之间。(见图S2。)对于许多消费者来说,这将是他们信用史上的第一个记录。在此之后,消费者可以使用PrePaid帐户。

13
可人4 在职认证  发表于 2022-6-2 18:52:57
由于电信公司可能会暂停服务,因此可以将该信用与用户的电话号码作为抵押品。然而,这种抵押品是有限的,因为用户可以用新的电话号码开立一个新的预付费账户。在这方面,这一比率高于典型的小额信贷贷款。根据国家统计局对哪些因素重要的判断(使用未经数据培训的决策规则),将这些指标结合起来。根据加密的匿名标识符,将订阅者与他们的财务历史进行匹配。移动电话数据包括每个呼叫和SMS的元数据,以及另一方的标识符、时间戳、发射塔位置和持续时间。它不包括充值、余额、数据访问、费用、使用的手机型号或移动货币交易;因此,richerdata的性能有望提高。数据不包括任何通信内容的任何信息。我们的目标是根据发放信贷时可用的信息预测违约,因此仅包括计划切换日期之前的手机交易。样本的描述性统计如表1所示。尽管我们85%的样本在信贷局有档案,但其中许多档案都很薄:59%的样本至少有一个实体目前正在报告一个账户,31%的样本至少有两个,只有16%的样本至少有三个。通过建设,100%的样本拥有预付费手机账户。平均每周打26个电话,通话32分钟,发送24.4条短信。数据包括16周内个人电话使用量的中位数;可以获得更长历史的实现可能会执行得更好。方法本研究的目的是利用手机使用的行为特征预测还款的可能性。

14
可人4 在职认证  发表于 2022-6-2 18:52:59
我们考虑一个已完成的计划转换的样本,并考虑在信贷发放时可用的信息是否可以预测其还款。由于这一样本的个人确实获得了信贷,因此根据当时的选择标准,在那些获得信贷的人中报告了风险,这一标准相对宽松,涵盖了信贷历史的分布(包括没有任何历史)。信用数据提供了特定借款人是否偿还债务的指标(合伙人的定义是逾期15天)。从电话数据中,我们得出了可能与还款相关的各种特征。在类似的研究中,Blumenstock等人(2015年)使用对结果变量不可知的数据挖掘方法,从mobilephone数据中生成特征。我们的方法是针对一个结果——还款——量身定做的。我们提取一组可能与还款有直观关系的对象,然后计算总结这些对象的特征。我们将重点放在具有直观关系的特性上,因为实施伙伴可能会警惕“黑箱”方法,而具有理论联系的指示器更有可能与感兴趣的结果具有稳定的关系。虽然我们的方法可能会提取出一些与Blumenstock等人(2015)相似的特征,但它也会测量出更细微的特征,而这些特征不是由通用方法生成的。手机使用记录了许多与还款有某种直观联系的行为。电话账户是一个财务账户,它记录了一个人支出的一部分。我们的大多数指标衡量费用管理的模式,例如变化(使用是否不稳定?),坡度(使用量是随时间增长还是收缩?),和周期性(使用的时间模式是什么?)。

15
nandehutu2022 在职认证  发表于 2022-6-2 18:53:03
特别是,收入来源不同的个人可能会有不同的支出周期(正式工人可能按月支付;供应商可能在市场日支付)。我们还捕获了可能与还款有直接联系的行为的细微差别,包括工作日和节假日的使用情况,以及可以反映就业信息的地理移动模式。虽然社交网络测量可能具有预测性(与谁联系可能反映一个人的责任水平或获取资源的能力),但我们仅包括不依赖于另一方身份(程度和联系人之间的交易分布)的基本社交网络测量,因为我们不敢说一个人的出借前景应该受到他们的人脉的影响。虽然许多传统的信用评分模型旨在揭示一个人的固定类型(该人是否通常是一个负责任的借款人),但我们捕捉到的高频行为也可能会提取特定于个人信用评估时间的特征(一个人可能会偿还该信用,即使他们通常不负责任)。我们的过程有三个步骤:首先,该方法识别数据中观察到的原子事件,每个事件表示为一个元组(i,t,e,Xiet),其中i表示个人,t表示时间戳,e表示事件类型,Xietrepresents表示相关特征的向量。事件类型包括事务(呼叫、短信或数据使用)、设备切换和地理移动(当前塔的坐标)。

16
何人来此 在职认证  发表于 2022-6-2 18:53:06
根据法律交易数据得出的特征包括捕捉社会经济学的变量(手机模型、客户所在国)、时间(信贷发放前的时间、一周中的哪一天、一天中的哪一天、是否是节假日),以及费用管理(无论发送方或接收方是否有预付款或预付款账户,交易是否发生在折扣时间段内,或在时间段中断时)。其次,对于每个单独的i、事件类型e和特征k,我们计算一个向量,其中包含特征的每个潜在值的事件总和:=1{= }()例如,这会生成按时间划分的通话计数、与每个联系人通话的分钟数、预付费和预付费账户的短信数,以及折扣时段开始之前和之后的通话总持续时间。最后,对于每个向量,我们计算一组摘要统计信息。对于序列,这些包括中心度(均值、中位数、分位数)、离散度(标准偏差、分位数间范围)的测量,对于顺序序列,变化(斜率)和周期性(各种滞后的自相关,以及与最强重复时间模式的周期相对应的基本频率)。对于按类别计数,我们计算每个类别中的分数和总体离散度(Herfindahl-Hirschman指数)。对于地理坐标,我们计算任意两点之间的最大距离,即从质心到多个兴趣点的距离,并使用聚类算法来识别重要位置(Isaacman et al.,2011)。

17
mingdashike22 在职认证  发表于 2022-6-2 18:53:10
我们还计算统计数据,总结序列对,包括相关性、比率和滞后相关性(例如,与短信通话的分钟数的相关性,这可能表明一个人是否在突发活动中协调)。这三个步骤产生了对所呈现的直观特征的各种量化(包括接触的强度和多样性)以及其他度量(使用的强度和空间和时间分布,以及移动性)。对于每个特性,我们还添加了一个指示器,用于指示该个人是否丢失了该特性。总的来说,大约有5500个特性有变化。预测和结果第一个问题是各个特征如何与默认值相关。表2显示了单变量与默认值的相关性。传统上贷款人可用的特征不是很具有预测性。人口统计学特征(性别和年龄)与还款的相关性很低(大小介于0.04和0.07之间)。有acredit局记录与还款有很小的负相关(-0.02)。对于有记录的个人,最具预测性的特征是总分(-0.072;越低越好)和债务损失分数(0.046)。个人信贷机构的特征只是轻微的预测性,这表明在这种情况下预测还款是一个困难的问题。从手机使用中获得的单个特征具有略高的相关性,范围高达0.16。但手机使用数据更丰富,因此模型中可以包含更多的行为特征。许多特性度量相似的概念,因此该表显示了广泛的类别,以及该类别中一个顶级特性的相关性。相关特征包括使用周期(顶部相关-0.16)、使用斜率(0.13)、使用相关性(0.11)和方差(-0.10)。

18
能者818 在职认证  发表于 2022-6-2 18:53:13
该表突出显示了单独运行良好的特定功能,包括每天发送的电话的斜率,以及使用电话的重要地理位置群集的数量。接下来,我们考虑一起使用多个特性来预测还款。预测还款即使使用机器学习文献中常见的标准方法,我们的功能也是预测性的。我们估计了两个标准的机器学习模型:随机森林和使用模型选择程序(使用贝叶斯信息标准或BIC进行逐步搜索)的逻辑回归,用于bureauindicators和phone indicators(CDR)。随机森林是决策树的泛化,旨在通过组合多个树来减少过度拟合,每个树都可以访问样本的子集(Breiman,2001)。然而,这些简单的估算程序可能会混淆解释还款的个别因素,并产生常见的时间冲击,从而导致不同时期偿还的信贷比例的差异。高频指示器,如我们的电话指示器,特别容易受到这些冲击。对于电话指标,我们开发了两个新模型,通过仅基于周内变化(CDR-W)的预测来改善跨时稳定性。第一种是具有周固定效应的OLS模型;这些吸收了每周还款的变化。预测的形成不同于标准的固定效应模型。一个标准模型将包括预测还款时每个要约周的固定效应,但在这种情况下不可行:贷款人不知道未来几周的固定效应。相反,预测是基于过去几周固定效应的平均值,并根据过去一周发放的贷款比例进行加权。

19
nandehutu2022 在职认证  发表于 2022-6-2 18:53:15
第二个模型是randomforests的类似版本:我们将单独的随机森林模型拟合到过去一周的数据中,并将它们组合成一个整体。在对个人进行预测时,每个子模型都会根据过去一周内授予的转换比例进行加权。这种方法减少了时间内和时间外性能之间的差异;这也可能导致选择随着时间推移更加稳定的指标。为了说明模型选择的特征,我们首先在整个样本上估计这些模型。随机森林重要性图见图S1,回归参数估计值见补充附录中的表S1。标准模型倾向于对行为的不同周期性给予很大的重视。虽然这些模式中的一些与还款相关,但其他模式会在从多组起始变量初始化的逐步搜索中提取高频伪影;保持最高的内折贴合度。本文使用therandomForest R包,默认调整500棵树,为每棵树绘制63.2%的样本大小,以及每个节点考虑的变量(Breiman&Cutler,2006)。如果一周内完成的过渡很少,则会与相邻的几周合并。发放贷款时,可以提高最新模型的权重,以捕捉条件的变化。数据。我们的周内模型对周期性的重视程度较低,而对工作日或深夜所说的持续时间、行驶距离、使用变化以及通话和短信之间的相关性的重视程度较高。OLS固定效应模型也比logistic模型简单,表明固定效应方法更能降低模型的复杂性。PerformanceWithin时间我们使用交叉验证来衡量方法在样本外的执行情况。

20
能者818 在职认证  发表于 2022-6-2 18:53:18
按照有监督机器学习中的常见做法,将样本分成R个随机选择的折叠。算法循环遍历每个褶皱,估计(训练)R-1褶皱上的模型,并报告Rth省略褶皱上的预测性能(测试)。结果将在每个折叠和多次折叠的绘图上进行平均。R值越大,训练样本越多,这往往会提高预测性能,但会增加计算负担,因为模型必须估计R次。主要结果报告R=5,这在机器学习文献中常用(表S2报告R=10的结果)。作为第一个检查,考虑模型如何很好地区分低风险和高风险借款人。结果来自使用我们的方法的最保守的模型,随机森林每周集合和最保守的局模型。这些模型生成连续的分数,因此可以通过比较几个示例接受阈值来评估性能。在我们最保守的模型中,五分位风险得分最高的个人违约的可能性是五分位风险得分最低的个人的2.8倍。在有信用记录的人中,如果根据creditbureau评分将信用扩展到50%的最低风险前景,违约率将为9.7%,而根据我们使用电话记录的评分,违约率仅为8.3%。此外,如果信用扩展到那些没有信用记录的人,而这些人的预测违约风险将使他们在有信用记录的人的风险预期中处于前50%,那么违约率将仅为6.6%。也就是说,我们使用电话记录的方法可以从没有信用记录的人中识别出一组良好的信用前景。由于不清楚贷款人在分数分布中会在哪里设置接受阈值,我们沿着整个阈值范围跟踪结果。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-16 12:14