楼主: 可人4
582 20

[量化金融] 基于人工智能的P2P贷款受理与违约预测 [推广有奖]

  • 0关注
  • 2粉丝

会员

学术权威

77%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
45.5207
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
24788 点
帖子
4166
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
可人4 在职认证  发表于 2022-6-24 07:08:08 |只看作者 |坛友微信交流群|倒序 |AI写论文
相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《P2P Loan acceptance and default prediction with Artificial Intelligence》
---
作者:
Jeremy D. Turiel and Tomaso Aste
---
最新提交年份:
2019
---
英文摘要:
  Logistic Regression and Support Vector Machine algorithms, together with Linear and Non-Linear Deep Neural Networks, are applied to lending data in order to replicate lender acceptance of loans and predict the likelihood of default of issued loans. A two phase model is proposed; the first phase predicts loan rejection, while the second one predicts default risk for approved loans. Logistic Regression was found to be the best performer for the first phase, with test set recall macro score of $77.4 \\%$. Deep Neural Networks were applied to the second phase only, were they achieved best performance, with validation set recall score of $72 \\%$, for defaults. This shows that AI can improve current credit risk models reducing the default risk of issued loans by as much as $70 \\%$. The models were also applied to loans taken for small businesses alone. The first phase of the model performs significantly better when trained on the whole dataset. Instead, the second phase performs significantly better when trained on the small business subset. This suggests a potential discrepancy between how these loans are screened and how they should be analysed in terms of default prediction.
---
中文摘要:
将Logistic回归和支持向量机算法以及线性和非线性深层神经网络应用于贷款数据,以复制贷款人接受贷款的情况,并预测已发放贷款违约的可能性。提出了一种两相流模型;第一阶段预测贷款被拒绝,而第二阶段预测已批准贷款的违约风险。Logistic回归在第一阶段表现最好,测试集回忆宏观得分为77.4 \\%$。深度神经网络仅应用于第二阶段,它们是否达到了最佳性能,对于默认值,验证集召回分数为72 \\%$。这表明AI可以改进当前的信用风险模型,将已发行贷款的违约风险降低70美元。这些模型也适用于仅为小企业提供的贷款。当在整个数据集上进行训练时,模型的第一阶段表现明显更好。相反,第二阶段在接受小企业子集培训时表现明显更好。这表明这些贷款的筛选方式与违约预测分析方式之间存在潜在差异。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Risk Management        风险管理
分类描述:Measurement and management of financial risks in trading, banking, insurance, corporate and other applications
衡量和管理贸易、银行、保险、企业和其他应用中的金融风险
--
一级分类:Quantitative Finance        数量金融学
二级分类:General Finance        一般财务
分类描述:Development of general quantitative methodologies with applications in finance
通用定量方法的发展及其在金融中的应用
--

---
PDF下载:
--> P2P_Loan_acceptance_and_default_prediction_with_Artificial_Intelligence.pdf (1.29 MB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:人工智能 p2p Quantitative Applications Intelligence

沙发
能者818 在职认证  发表于 2022-6-24 07:08:13 |只看作者 |坛友微信交流群
P2P贷款接受和人工智能违约预测预印本Jeremy D.Turiel计算机科学系LondonGower街,BloomsburyLondon WC1E 6BT,United Kingdomjeremy。图里尔。18@ucl.ac.ukTomasoAste公司*计算机科学系伦敦大学学院和高尔街,布卢姆斯伯兰登WC1E 6BT,联合王国。aste@ucl.ac.ukJuly2019年4月,抽象深度神经网络应用于贷款数据,以复制贷款人对贷款的接受情况,并预测已发放贷款违约的可能性。提出了一种两相流模型;第一阶段预测贷款拒绝,第二阶段预测已批准贷款的违约风险。LogisticRegression被发现在第一阶段表现最好,测试集召回宏观得分为77.4%。深度神经网络仅应用于第二阶段,它们是否达到了最佳性能,默认情况下的验证集召回分数为72%。这表明人工智能可以改进当前的信用风险模型,将已发行贷款的违约风险降低高达70%。该模型也适用于仅为小企业提供的贷款。当对整个数据集进行训练时,模型的第一阶段表现明显更好。相反,第二阶段在接受小企业子集培训时表现明显更好。这表明这些贷款的筛选方式与违约预测分析方式之间存在潜在差异。P2P借贷·人工智能·大数据·违约风险·金融自动化1简介现代大数据集和开源数据的可用性,以及计算和算法CDATA分析技术的进步,重新激发了人们对这项风险预测任务的兴趣。此外,贷款审批流程的自动化为小企业和个人提供了新的融资机会。

使用道具

藤椅
能者818 在职认证  发表于 2022-6-24 07:08:16 |只看作者 |坛友微信交流群
由于人工处理的高成本,这些银行以前获得信贷的机会更加有限。最终,这一过程的自动化有可能减少人类偏见和腐败,使所有人都能更公平地获得信贷。金融技术对这个正在迅速变化的领域产生了巨大影响[]。这一模型在P2P借贷中的应用只是一个例子,其他例子包括发展中国家的小额融资和逐笔贷款评估用于投资的贷款组合。P2P借贷近年来吸引了业界、学术界和公众的关注。这还得益于主要P2P借贷平台的大规模扩张,如借贷俱乐部(lending Club),该公司目前已向逾300万客户提供了逾450亿美元的贷款。P2P贷款覆盖率和普及率不断提高的另一个原因是其在东欧、南美和非洲欠发达市场的快速扩张。随着该行业在货币和社会方面的相关性不断增强,监管的必要性也随之产生。FCA是为该行业制定规则的常客之一[2,3],这表明了这一趋势在美国以外的发达国家的重要性。*金融计算和分析主管Grouphttp://www.cs.ucl.ac.uk/staff/tomaso_aste/.UCLCentre区块链技术总监http://blockchain.cs.ucl.ac.uk/tomaso-aste/.arXiv:1907.01800v1【q-fin.RM】2019年7月3日预印本-2019年7月4日由于其易于访问的历史数据集,借贷俱乐部是多个调查P2P借贷违约驱动因素的出版物的主题[,]。新兴国家P2P贷款的增长也吸引了研究兴趣,例如[]调查墨西哥的贷款。这突出了P2P贷款在为新兴国家的人口提供信贷方面的关键作用。

使用道具

板凳
mingdashike22 在职认证  发表于 2022-6-24 07:08:19 |只看作者 |坛友微信交流群
跨学科科学界,如网络科学界,也开始对P2P借贷的社会经济动态表现出兴趣[]。更多的理论研究也探讨了P2P借贷需求和增长的原因。由于借贷对手之间的信息不对称,这通常与信贷配给的概念有关[]。小额金融机构是解决信贷配给问题的一个办法,其重点是允许公平获得信贷和减少贫困。《艾德·马加津》(iredmagazine)杂志主编克里斯·安德森(ChrisAnderson),Serrano Cinca等人已经确定了“少卖有自我维持的商业模式”的概念。他们已经提出,技术将允许降低成本和利率,从而导致类似电子商务的革命【10】。这项工作旨在为这一目标做出贡献。据我们所知,研究P2P贷款驱动因素的学术出版物[,,]已将简单回归模型应用于此任务。这项工作在将大数据和人工智能技术应用于P2P贷款方面迈出了重要的一步,结合了两个主要的颠覆性新兴领域。应用,在第3节中,我们展示了应用于整个数据集的模型第一阶段(第3.1.1节)和第二阶段(第3.1.2节)的结果和相关讨论,第3.2节然后研究了“小企业”贷款中应用的类似方法,第4节从我们的工作中得出结论,然后在第5.2节数据集和方法2.1数据集中确认接受贷款的总数(蓝色)、拒绝贷款的数量占申请贷款总数的分数(绿色)和申请贷款的总数(红色)。

使用道具

报纸
可人4 在职认证  发表于 2022-6-24 07:08:22 |只看作者 |坛友微信交流群
黑线代表原始时间序列,由于违约贷款比例明显减少,垂直黑线右侧的数据被排除在外,这是因为违约是一个随机累积过程,并且贷款提前偿还36-60。这将构成一个有偏见的测试集。预印本-2019年7月4日https://www.lendingclub.com). 数据集从Kaggle(www.Kaggle.com)下载。贷款、婚礼、房屋相关贷款、小企业贷款和其他贷款。其中一个数据集包含被信贷分析师拒绝的贷款,而另一个数据集包含数量明显更高的贷款,表示已接受的贷款,并显示其当前状态。我们的分析涉及这两个方面。第一个数据集包含超过1600万笔被拒绝的贷款,但只有9个特征。第二个数据集包括≈ 15≈ 由于没有可用的默认或付款结果,已从数据集中删除800000800000作为“当前”。已选择Accepted600000150000贷款的数据集进行分析,并将此功能用作默认预测的目标标签。“10%≈ 已发放贷款总额的50%。拖欠贷款代表15- 已发放贷款的20%进行了分析。在目前的工作中,第一阶段的特征被简化为两个数据集之间共享的特征。例如,贷款申请人的地理特征(美国州和邮政编码)被排除在外,即使它们可能是信息性的。第一阶段的特点是:1)债务收入比(申请人);2) 就业期限(经验学习)。为了获得接受和拒绝贷款日期的共同特征,适用于模型的第二阶段,其中所有日期均与发放日期相对应。

使用道具

地板
nandehutu2022 在职认证  发表于 2022-6-24 07:08:26 |只看作者 |坛友微信交流群
两者的所有数字特征都泄漏到模型中。模型第二阶段考虑的特点是:1)贷款金额(当前申请的贷款);2) (8)债务与收入比率(申请人);9) (申请人)记录中的最早信用额度;10) 未结信用额度的数量(在申请人的信用文件中);11) (申请人)贬损性公共记录的数量;12) 循环额度利用率(借款人使用的信贷金额相对于所有可用的循环信贷);13) 信贷额度总数(在申请人的信贷文件中);14) 抵押贷款信用额度数量(申请人的信用对数是为了缩放);17) (申请人的)FICO分数;18) (申请人)总信用转帐余额的对数。排除了为数据集的有限部分(少于70%)提供信息,缺失数据通过平均插补进行查询。这不应该对我们的分析产生相关影响,因为累积平均插补值低于总体特征数据的10%。此外,统计数据是针对每个至少10000笔贷款的样本计算的,因此计算结果不应产生偏差。数据集统计数据的时间序列表示如图1所示。与此数据集(或其早期版本,如[])的其他分析不同,此处用于违约分析,我们仅使用贷款机构在评估贷款和发放贷款之前已知的特征。例如,一些在其他作品[]中发现非常相关的特征被排除在该领域的选择之外。这里没有考虑的最相关的特征之一是利率和俱乐部分析员指定的等级。事实上,我们的研究旨在为贷款机构找到与违约预测和贷款回吐先验相关的特征。

使用道具

7
mingdashike22 在职认证  发表于 2022-6-24 07:08:29 |只看作者 |坛友微信交流群
因此,信贷分析师提供的评分以及借贷俱乐部提供的利率不会成为我们分析中的相关参数。2.2方法将两种机器学习算法应用于第2.1节:基于线性核的逻辑回归和支持向量机的数据集(有关这些方法的一般参考文献,请参见[,])。预印本-2019年7月4日也应用了神经网络,但仅适用于默认预测。神经网络以线性分类器(至少在原则上类似于逻辑回归)和深层(两个隐藏层)神经网络的形式应用【15】。正则化技术用于避免过度拟合,L2正则化是最常用的,但LR和SVM的网格搜索中也包括了alsoL1正则化。这些是以弹性网的形式相互排斥的hencenot[,]。通过extensivegrid搜索执行模型的初始超参数优化。正则化参数α的范围各不相同,但最宽的范围是α=[10-5, 10]. α值均为整数指数的10次幂。超参数由网格搜索确定,仅在第3节规定的某些情况下手动调整。这是通过在网格搜索中移动参数范围或为超参数设置特定值来实现的。这主要是在有证据表明在训练模型时通过平衡权重过度拟合fromas时进行的。手动超参数调整是模型经验评估的结果。事实上,通过不同的标准进行模型评估,以确保较高或较低水平的规范化可能是最佳的,然后通过fixing手动将其纳入培训,并在分析中使用验证(或测试)集。

使用道具

8
大多数88 在职认证  发表于 2022-6-24 07:08:32 |只看作者 |坛友微信交流群
数据集在一开始就被拆分,以防止信息泄漏,这可能会为模型提供有关测试集的信息。然后,测试集包含未来看不见的数据。结果验证使用了两个指标,即召回率和AUC。AUC可以解释为分类者将随机选择的正实例排名高于随机选择的负实例的概率[]。这与分析非常相关,因为信用风险和信用评级也与其他贷款相关。MetricExtrapolate平均而言,违约贷款的风险是否高于全额支付贷款。召回是指正确预测的某类贷款(如拖欠或全额支付的贷款)的细分。应用了50%概率的标准阈值,用于向上或向下取整到一个二进制类。这是相关的,因为它不测试分配给贷款的相对风险,而是测试总体风险和模型在预测中的可信度【19】。3结果与讨论3.1通用两阶段模型用于所有目的类别预测3.1.1第一阶段最大化未加权召回平均值。未加权的召回平均值称为召回宏,计算为目标标签中所有类别的召回分数的平均值。平均值不受响应目标标签中不同类别的countscor数的加权。我们在网格搜索中最大化召回宏,作为预测平均值的最大准确度。这使得在培训集中人数过多的课程更受重视,这种偏差可能导致过度匹配。75%/25%90%/10%25%样品用于测试,观察到产生更稳定可靠的结果。α \' 10-3’79.8%的测试集预测返回的召回宏观评分为‘77.4%,AUC评分为‘86.5%。

使用道具

9
kedemingshi 在职认证  发表于 2022-6-24 07:08:35 |只看作者 |坛友微信交流群
被拒绝贷款的测试回忆得分为85.7%,被接受贷款的测试回忆得分为69.1%。使用支持向量机分析相同的数据集和目标标签。与Logistic回归的网格搜索类似,召回宏被最大化。网格搜索用于调整α。训练回忆宏为77.5%,而测试回忆宏为75.2%。被拒绝贷款的个人测试回忆得分为84.0%,被接受贷款的个人测试回忆得分为66.5%。测试分数变化不大,因为α=[10]的可行范围-3, 10-5].在这两种回归中,接受贷款的召回分数均较低≈ 15%,这可能是由于阶级不平衡(有更多被拒绝贷款的数据)。这表明,更多的训练数据将提高这一得分。从以上结果中,我们观察到,几乎20X的阶级不平衡会影响模型在代表性不足的阶级上的表现。然而,在我们的分析中,这种现象并不特别令人担忧,因为向一个不值得的借款人贷款的成本是70%,所以要获得他们的贷款。一份预印本——2019年7月4日,逻辑回归的结果出人意料地准确,这表明信贷分析师可能正在用一个类似线性的函数来评估属性中的数据。这可以解释第二阶段所显示的改进,当时只使用了一个简单的模型进行信用筛选。3.1.2将第二阶段逻辑回归、支持向量机和神经网络应用于公认的贷款数据集,以预测违约。至少在原则上,这是一项更为复杂的预测任务,因为涉及更多的特征,并且事件的内在性质(默认与否)既有概率性,也有随机性。分类特征也存在于本分析中。

使用道具

10
可人4 在职认证  发表于 2022-6-24 07:08:38 |只看作者 |坛友微信交流群
前两个模型都是“热编码”的,但在这项工作中,由于编码产生的列数大大增加了模型的训练时间,因此将其排除在神经网络之外。在未来的工作中,我们将研究具有这些分类特征的神经网络模型。90%/10%集(由于观察到过采样会导致模型过度拟合,所以采用了下采样)。数据,至少在回忆得分方面。在这种情况下,比例过高的类别是全额支付的贷款,而正如第3.1.1节所述,我们更关心的是预测违约贷款,而不是对全额支付的贷款进行错误分类。3.1.3第二阶段-Logistic回归Logistic回归的网格搜索返回了一个值为α\'10的最优模型-2、对于第3.1.1节中的模型,网格被设置为最大化召回宏。训练回忆宏观得分为64.3%,测试AUC和回忆宏观得分分别为69.0%和63.7%。默认情况下的个人测试回忆分数为63.8%,两个班级的为63.6%。与第3.1.1节讨论的不同,最大化AUC不会导致强烈的过度拟合。在AUC和回忆宏观方面,测试分数都较低。3.1.4第二阶段-支持向量机支持向量机也应用于数据集。网格搜索返回的最佳α值为α=10-2,与第3.1.3节中的逻辑回归相同。然而,该模型的得分比逻辑回归得出的得分要差。违约贷款的测试AUC为64.3%,个人测试召回分数为58.7%,全额支付贷款的测试AUC为65.6%,见表1。可以推断,该数据集的分析并没有从SVMkernel测试集性能的非线性中获益。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-15 03:54