楼主: 可人4
610 20

[量化金融] 基于人工智能的P2P贷款受理与违约预测 [推广有奖]

11
kedemingshi 在职认证  发表于 2022-6-24 07:08:42 |只看作者 |坛友微信交流群
此外,对于对借款人资产负债表有较大影响的人数过多的班级,回忆分数也会提高。如此严重的分数不平衡也不是理想的预测质量。应注意的是,标签类不平衡(违约和全额支付的贷款)比第3.1.1节中描述的要弱得多,违约贷款占15- 数据集的20%。表1:模型第二阶段LR和SVM测试的主要结果表。贷款违约预测结果ModelαRecall Train AUC TestRecall TestLR 10-264.3%69%63.7%/63.8%/63.6%SVM 10-2.- 64.3%62.2%/58.7%/65.6%3.1.5第二阶段-神经网络线性神经网络分类器以及深层(两个隐藏层)神经网络也在模型第二阶段的数据集上进行了训练。线性神经网络分类器仅针对数字特征以及数字和分类特征进行训练。然后应用L2正则化。仅数字特征测试分数a预印本-2019年7月4日返回的AUC为67.8%,召回率为60.0%(针对违约贷款)。当引入分类特征时,该模型也产生了改进的结果。测试分数返回的AUC为68.7%,召回率为62.7%(针对违约贷款)。这些分数略低于逻辑回归的分数,但它们尚未实施正规化。一旦L2调节(α=10)被手动设置和应用,测试AUC提高到69%,召回率提高到65%(对于默认贷款)。深度神经网络(具有表2中任意两个隐藏层的节点结构DNNain)最初仅应用于数值数据。与线性分类法相比,测试AUC和召回(针对违约贷款)得分分别为68%和67%。

使用道具

12
kedemingshi 在职认证  发表于 2022-6-24 07:08:45 |只看作者 |坛友微信交流群
这确实表明了更高级的特征组合是如何通过目标标签改进的,这无疑意味着比最初提供给模型的特征和特征组合更加复杂。然后,通过对节点编号N的网格搜索,为两个隐藏层重新定义DNN。网格搜索在setsn中的所有值组合上运行∈ {5,10,15,20,30},n∈ {1、3、5、10}并通过应用高水平的辍学正规化(20%)。根据经验,从[0%,30%]中选择辍学正规化水平,以减少DNN的固有倾向,从而形成更稳健和通用的模型基础设施。超参数优化的结果。表2描述了从网格搜索中选择的两个网络结构的结果(以及DNNA-任意两个隐藏层节点结构)。选择这些网络结构,因为它们的结果显示了稳定AUC和高默认召回率的理想特性。表2:模型第二阶段测试的DNN架构的主要结果表。贷款违约预测结果Model Dropout Recall Train AUC TestRecall DefaultTestDNNa20%-68%67%DNNb20%71%66%75%DNNc20%68%69%72%aDNN具有任意节点编号【n=20,n=5】bDNN,节点编号微调为【n=30,n=1】cDNN,节点编号微调为【n=5,n=3】DNN图2中的表示将完全连接层中每个链接的权重编码为线厚度。节点大小和颜色表示节点输出权重的归一化和。

使用道具

13
可人4 在职认证  发表于 2022-6-24 07:08:48 |只看作者 |坛友微信交流群
这种表示法显然构成了一种近似,因为节点包含非线性,但它仍然提供了一种有用的视觉解释和稳定性检查工具。3.2“小企业”类别的两阶段分析第2.2节中描述的“目的”功能提供了有关申请贷款目的的信息。此处特别关注该功能的小企业类别。该贷款类别的[]. 此外,这一目的可以说不同于其他目的,更注重业务,而不仅仅是个人贷款。因此,我们决定单独研究这一类别,尽管它包含在用于前几节所述分析的整个数据集中。3.2.1第一阶段-仅小企业培训数据仅对“小企业”贷款进行了逻辑回归和支持向量机培训和测试。对两个网格搜索进行逻辑回归训练,一个最大化AUC,另一个最大化回忆宏。前者返回一个最优模型,α=0.1,训练AUC得分为88.9%,测试AUC得分为65.7%。个人回忆得分为“拒绝贷款48.0%,接受贷款62.9%。训练和预印本之间的差异-2019年7月4日图2:节点大小和颜色表示总输出重量和边缘宽度与重量成比例的神经网络表示。

使用道具

14
可人4 在职认证  发表于 2022-6-24 07:08:51 |只看作者 |坛友微信交流群
所代表的DNN具有调整为[5,3]和tanh非线性的节点数。表3:在数据的“小企业”子集上训练和测试的SVM和LR网格的小企业贷款接受结果和参数。模型网格度量α训练分数AUC测试召回拒绝召回接受LR AUC 0.1 88.9%65.7%48.5%62.9%LR召回宏0.1 78.5%65.5%48.6%57.0%SVM召回宏0.01-89.3%47.8%62.9%SVM AUC 10-83.6%46.4%76.1%后者网格搜索返回的结果与前者有些相似。训练回忆宏为78.5%,测试回忆宏为52.8%。被拒绝贷款的AUC测试得分为65.5%,个人测试回忆得分为48.6%,接受贷款的AUC测试得分为57.0%。该网格的结果再次显示了过度拟合和模型无法推广。虽然被拒绝的贷款预计召回率低于50%,但比随机猜测更糟糕。这可能只是表明模型无法预测此数据集,或者数据集没有提供足够清晰的模式或信号。支持向量机在数据集上的表现与逻辑回归相似。这里还进行了两次网格优化,以分别最大化AUC和recall macro。前者的测试AUC得分为89.3%,被拒绝贷款的个人回忆得分为47.8%,被接受贷款的个人回忆得分为62.9%。后一个网格返回的测试AUC分数为83.6%,拒绝贷款的个人召回分数为46.4%,接受贷款的个人召回分数为76.1%(该网格实际上选择了一个具有弱L1正则化的最佳模型)。建立了最终模型,其中用户确定了正则化类型(L2正则化),并将正则化参数的范围移到较低的值,以减少模型的拟合不足。网格设置为最大限度地调用宏。接受的贷款为82.2%、47.3%、70.9%。

使用道具

15
可人4 在职认证  发表于 2022-6-24 07:08:55 |只看作者 |坛友微信交流群
这些是稍微更平衡的回忆值。然而,该模型显然仍然无法很好地对数据进行分类,这表明Credit可能使用了其他评估手段或特征,其样本数量低于第3.1.1节所述,贷款少于3.10,仅≈ 10接受的贷款。预印本-2013年7月4日。2.2第一阶段-所有培训数据鉴于在小企业数据集上培训的模型表现不佳,为了利用主数据集中的大量数据及其推广到新数据及其数据子集的潜力,Logistic回归和支持向量机在整个数据集上进行训练,并在小企业数据集的子集上进行测试(最新贷款,如第2.2节所述的方法)。与第3.2.1节中讨论的结果相比,该分析产生了显著更好的结果。结果见表4。在其“小企业”子集上进行测试。模型网格度量α训练分数AUC测试召回拒绝召回接受LR AUC 1 89.0%71.9%53.5%60.2%LR召回宏0.1 77.9%71.7%54.0%59.9%LR固定0.001 80.0%71.1%55.2%65.2%LR固定0.0001 80.1%71.0%55.9%62.9%SVM召回宏0.01-77.5%52.6%68.4%SVM AUC 10-89.0%97.3%43.3表4所示结果对于逻辑回归,仍然存在持续较高的召回率接受贷款。因此,小企业贷款违约的可能性更高,因此被认为风险更大,而根据所有数据训练的模型没有这些信息。贷款违约信息仅作为标签显示在违约分析中,因为没有拒绝贷款的数据。

使用道具

16
能者818 在职认证  发表于 2022-6-24 07:08:58 |只看作者 |坛友微信交流群
未来的工作可能会将与贷款用途相对应的违约贷款百分比作为新功能输入,并验证这是否会改进模型。支持向量机的结果与logistic回归的结果一致。训练以最大化AUC的网格显然过度匹配了被拒绝的类以最大化AUC,应该丢弃。grid maximisingrecall宏的结果与Logistic回归的结果具有相同的趋势。回忆得分稍微有点不平衡。如第3.1.1.3.2.3节所述,这证明了逻辑回归在预测任务中具有更好的性能。第二阶段对接受的贷款数据进行逻辑回归和支持向量机训练,以预测具有“小企业”目的的贷款违约。与第3.2.1节中讨论的分析类似,对模型进行了训练,令人惊讶的是,再次对代表性不足的违约贷款类别进行了更好的预测。这可能是因为大额贷款可能处于高风险状态,而并非所有风险贷款都必然违约,因此得分不平衡。在这种情况下,网格搜索中的MaximisingAUC为逻辑回归提供了最佳和最平衡的结果。类似于≈ 代表人数不足的班级的3%的能力可能是由于贷款随着时间的推移而继续存在,应在进一步的工作中进行调查。三个阈值带可能会改善结果,其中只评估更强的预测。支持向量机为这项任务提供了更平衡的结果,尽管总体上更差。

使用道具

17
mingdashike22 在职认证  发表于 2022-6-24 07:09:01 |只看作者 |坛友微信交流群
在支持向量机和LR中,我们观察到更强的正则化(对应于更高的α值)如何改善表5测试集的召回结果:小企业贷款默认结果以及在数据的“小企业”子集上训练和测试的支持向量机和LR网格的参数。模型网格度量α训练分数AUC测试召回默认召回对AUC 0.1 64.8%66.4%65.2%57.4%LR召回宏0.01 60.4%65.3%64.6%53.3%SVM召回宏0.01-59.9%59.8%58.8%SVM AUC 0.1-64.2%50.8%65.8%A预印-2019年7月4日观察到。结果见表6。该模型对全额支付贷款的预测很差,召回率甚至低于50%。这可能表明,这些贷款的筛选方式与其他类别的贷款类似,但它们的内部违约风险确实非常不同。这也体现在这些贷款与所有其他贷款类别之间的贷款存续差异中。[]网格返回的最佳参数表明,与表5中的结果相比,正则性较弱。为了预测其数据的子集,更强的正则化可能会改善结果,这可能会在未来的工作中得到验证。不过,应该考虑的是,规范化可能会降低一小部分数据的重要性,例如小企业贷款。

使用道具

18
可人4 在职认证  发表于 2022-6-24 07:09:05 |只看作者 |坛友微信交流群
小企业子集相对于“1.3%”和“1.25%”的比例表明贷款的潜在风险及其因素存在差异。通过比较LR和SVM,已经可以得出第4节中描述的关于模型泛化的结论,目的是通过更复杂的模型和特征组合来提高模型性能,这是第3.1节的主题。表6:在整个数据集上训练的SVM和LR网格的小企业贷款默认结果和参数,并在其“小企业”子集上测试。模型网格度量α训练分数AUC测试召回默认召回对价AUC 0.001(L1)69.8%68.9%81.0%43.3%LR AUC 0.001 69.7%69.2%86.4%35.0%LR召回宏0.001 64.2%69.2%86.4%35.0%SVM召回宏0.001-64.1%77.7%48.3%SVM AUC 0.001-69.7%77.7%48.3%4结论本文证明,P2P贷款接受和违约可以通过结果贷款接受超过85%(拒绝召回),贷款违约超过75%(违约召回)。鉴于目前的贷款筛选导致违约率约为20%(见图1),我们可以推断,本文提出的方法可能会将违约贷款减少到10%,从而对该市场的效率产生积极影响。表现最好的工具是贷款接受的逻辑回归和贷款违约的深层神经网络。通过复制传统贷款筛选的线性模型获得的高召回率表明,在这一阶段也有很大的改进空间。贷款等级和利率特征被发现与预测[]年的贷款违约最相关。当前的模型试图预测违约,而不使用来自信贷分析师评级和指定利率的有偏差数据,因此这些特征被排除在外。

使用道具

19
mingdashike22 在职认证  发表于 2022-6-24 07:09:07 |只看作者 |坛友微信交流群
深度神经网络和逻辑回归模型对传统的信贷筛选提供了实质性的改进。召回得分显著且稳健地高于70%,而深度神经网络的AUC得分为70%,甚至在[]中的逻辑回归上也有所改善。在我们的研究中,该模型提供的功能可推广到P2P借贷以外的任何借贷活动和机构。因此,为了预测贷款违约风险,而无需进行人为信用筛查,可以扩大目前的工作。第3.1节所述的用于所有贷款目的的两阶段模型总体表现较好,信贷分析师筛选和接受的贷款违约率高达75%,远高于50%,同时没有对该阶段进行过多处罚,仅在小企业贷款方面进行培训后,违约预测总体上要好得多。这与他们的违约风险和特点有关。神经网络的表现明显优于其他模型,这表明它们可能用于违约预测,进一步用于信贷分析师筛选。神经网络具有可预测性。这一点以及进一步的数据预处理和扩充应该是进一步工作的主题。我们将进一步将工作扩展到发展中国家的小额融资和逐笔贷款评估等领域。基于信息过滤网络技术的模型预印本2019年7月4日[]、[]、[]、[]、[]也将是未来研究的主题。5致谢作者感谢EC Horizon 2020 FIN-Tech项目的部分支持和有用的讨论机会。JT感谢EPSRC(EP/L015129/1)的支持。JT感谢Guido Germano博士提供有用的反馈和讨论。TA感谢ESRC(ES/K002309/1)、EPSRC(EP/P031730/1)和EC(H2020-ICT-2018-2 825215)的支持。参考文献【1】德勤报告。

使用道具

20
能者818 在职认证  发表于 2022-6-24 07:09:11 |只看作者 |坛友微信交流群
超越互联网:借贷方面的颠覆性创新。2017年【2】凯特·贝奥利。Fca开始打击点对点贷款。《金融时报》,2018年。[3] 金融行为管理局。Cp18/20:基于贷款(“点对点”)和基于投资的众筹平台:对我们实施后审查和监管框架拟议变更的反馈。2018年【4】Nilas M"ollenkamp。p2p贷款中贷款绩效的决定因素。B、 特温特大学美国论文,2017年。[5] Riza Emekter、Yanbin Tu、Benjamas Jirasakuldech和Min Lu。评估在线点对点(p2p)贷款中的信用风险和贷款绩效。《应用经济学》,47(1):54–702015。[6] 卡洛斯·爱德华多·坎菲尔德。p2p贷款违约的决定因素:墨西哥案例。《管理和生产独立杂志》,9(1):2018年1月至24日。[7] 林明峰、纳格普南和R Prabhala,以及湿婆Viswanathan。以theykeep公司判断借款人:在线点对点贷款中的友谊网络和信息不对称。《管理科学》,59(1):17–352013年。[8] 约瑟夫·斯蒂格利茨和安德鲁·维斯。信息不完全市场中的信贷配给。《美国经济评论》(Americaneconomic review),71(3):393–410,1981年。[9] 克里斯·安德森。长尾:为什么企业的未来是少卖多卖。哈切特图书,2006年。[10] 《商业评论》,23(1):181–1942014年。[11] 内森·乔治。所有借贷俱乐部贷款数据版本6,2018年2月。https://www.kaggle.com/wordsforthewise/lending-club.访问日期:2018-10-1。[12] 卡洛斯·塞拉诺·辛卡、贝戈尼亚·古铁雷斯·尼托和卢兹·洛佩斯·帕拉西奥斯。p2p贷款违约的决定因素。PloS one,10(10):E01394272015。[13] Wiley&Sons,2013年。[14] IEEE智能系统及其应用,13(4):18–281998。[15] 约根·施密杜伯。神经网络深度学习:概述。神经网络,61:85–117,2015年。[16] Andrew Y Ng。特征选择、l 1与l 2正则化以及旋转不变性。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-30 22:44