楼主: 能者818
1087 17

[量化金融] 基于LSTM模型的点对点贷款市场风险预测 [推广有奖]

  • 0关注
  • 6粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
39.5040
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
24699 点
帖子
4115
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2024-12-24

楼主
能者818 在职认证  发表于 2022-6-14 04:08:47 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Risk Prediction of Peer-to-Peer Lending Market by a LSTM Model with
  Macroeconomic Factor》
---
作者:
Yan Wang, Xuelei Sherry Ni
---
最新提交年份:
2020
---
英文摘要:
  In the peer to peer (P2P) lending platform, investors hope to maximize their return while minimizing the risk through a comprehensive understanding of the P2P market. A low and stable average default rate across all the borrowers denotes a healthy P2P market and provides investors more confidence in a promising investment. Therefore, having a powerful model to describe the trend of the default rate in the P2P market is crucial. Different from previous studies that focus on modeling the default rate at the individual level, in this paper, we are the first to comprehensively explore the monthly trend of the default rate at the aggregative level for the P2P data from October 2007 to January 2016 in the US. We use the long short term memory (LSTM) approach to sequentially predict the default risk of the borrowers in Lending Club, which is the largest P2P lending platform in the US. Although being first applied in modeling the P2P sequential data, the LSTM approach shows its great potential by outperforming traditionally utilized time series models in our experiments. Furthermore, incorporating the macroeconomic feature \\textit{unemp\\_rate} (i.e., unemployment rate) can improve the LSTM performance by decreasing RMSE on both the training and the testing datasets. Our study can broaden the applications of the LSTM algorithm by using it on the sequential P2P data and guide the investors in making investment strategies.
---
中文摘要:
在点对点(P2P)借贷平台中,投资者希望通过全面了解P2P市场,实现回报最大化,同时将风险降至最低。所有借款人的低且稳定的平均违约率意味着一个健康的P2P市场,并为投资者提供了更大的信心。因此,拥有一个强大的模型来描述P2P市场中违约率的趋势至关重要。与以往侧重于在个人层面建模违约率的研究不同,在本文中,我们首次全面探讨了2007年10月至2016年1月美国P2P数据在聚合层面的违约率月度趋势。我们使用长-短期记忆(LSTM)方法对美国最大P2P借贷平台Lending Club中借款人的违约风险进行顺序预测。虽然LSTM方法首次应用于P2P序列数据建模,但在我们的实验中,它的性能优于传统使用的时间序列模型,显示了其巨大的潜力。此外,结合宏观经济特征(即失业率),可以通过降低训练和测试数据集的RMSE来改善LSTM性能。我们的研究可以拓宽LSTM算法在P2P序列数据上的应用,并指导投资者制定投资策略。
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Quantitative Finance        数量金融学
二级分类:General Finance        一般财务
分类描述:Development of general quantitative methodologies with applications in finance
通用定量方法的发展及其在金融中的应用
--
一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--

---
PDF下载:
--> Risk_Prediction_of_Peer-to-Peer_Lending_Market_by_a_LSTM_Model_with_Macroeconomi.pdf (941.22 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:市场风险 风险预测 STM 点对点 Applications

沙发
能者818 在职认证  发表于 2022-6-14 04:08:51
基于宏观经济因素的LSTMModel对点对点贷款市场的风险预测Ryan WangKennesaw State UniversityKennesaw,GA,USAywang63@students.kennesaw.eduXuelei乔治亚州肯尼索州立大学雪莉·尼克内索分校,USAsni@kennesaw.eduABSTRACTmize通过对P2P市场的全面了解,在最大程度降低风险的同时实现回报。所有借款人的低且稳定的平均违约率表明P2P市场健康,并为投资者提供更多对有希望的投资的信心。因此,拥有一个强大的模型来描述P2P市场中的违约率趋势至关重要。Di公司与以往侧重于在个人层面上建模违约率的研究不同,在本文中,我们是rst全面探索2007年10月至2016年1月美国P2P数据聚合层面违约率的月度趋势。我们使用长-短期记忆(LSTM)方法顺序预测借贷俱乐部(Lending Club)借款人的违约风险,借贷俱乐部是美国最大的P2P借贷平台。虽然是RST将LSTM方法应用于P2P序列数据的建模,在我们的实验中,它的性能优于传统的时间序列模型,显示了其巨大的潜力。此外,整合宏观经济特征unemp\\U率(即失业率)可以通过降低培训和测试数据集的RMSE来改善LSTM性能。我们的研究可以将LSTM算法应用于有序P2P数据,从而拓宽LSTM算法的应用范围,并指导投资者制定投资策略。CCS概念o计算机系统组织→ 机器学习;建模。关键词SLSTM、长-短期记忆、宏观经济因素、风险预测、P2P lendingACM参考格式:Yan Wang和Xuelei Sherry Ni。2020年,通过带有宏观经济因素的LSTM模型预测对等市场的风险。

藤椅
能者818 在职认证  发表于 2022-6-14 04:08:54
2020年4月2日至4日在美国佛罗里达州坦帕举行的2020年ACM东南部会议(ACMSE 2020)。ACM,美国纽约州纽约市,8页。https://doi.org/10.1145/3374135.3385287Permission制作本作品的全部或部分的数字或硬拷贝以供个人或教室使用是免费的,但前提是不得为专业人士制作或分发副本或commercial advantage,且副本上附有本通知和首页。必须尊重ACMM以外的其他人拥有的本作品组件的版权。允许信用提取。要以其他方式复制或重新发布、在服务器上发布或重新分发到列表,需要事先指定c许可和/或afee。从请求权限permissions@acm.org.ACMSE2020年4月2日至4日,美国佛罗里达州坦帕(c)2020计算机械协会。ACM ISBN 978-1-4503-7105-6/20/03$15https://doi.org/10.1145/3374135.33852871简介点对点(P2P)贷款是世界上增长最快的领域之一,它意味着投资者通过虚拟平台直接向借款人贷款金融借贷市场。通过P2P借贷平台,获批借款人可以控制其南希,投资者受益通过获得潜在的竞争回报[]。为了帮助投资者做出投资决策,贷款机构在经济周期中持续关注。他们试图对借款人的违约风险进行建模(即偿还贷款),然后向贷款人提供信用评估[]。同时,随着时间的推移,在总体水平上评估借款人的风险也同样重要。持续低且成功投资的借贷平台[][]。因此,如何对这一趋势进行建模是需要解决的问题。long-short-term memory(LSTM)model,这是银行贷款预测和信用卡欺诈检测领域的经典之一[][]。

板凳
何人来此 在职认证  发表于 2022-6-14 04:08:57
虽然LSTM模型已应用于上述elds,还没有研究发现分析个人还款的重点是个人特征,在聚合数据上建模还需要考虑与P2P市场相关的宏观经济因素。显示出与p2p贷款市场的利率密切相关[]。此外,失业率在经验上与国内生产总值(GDP)相关[]。所有这些ndings显示了我们需要整合市场的有力证据。在上述研究的推动下,在本文中,我们演示了一个全面的案例研究,目标是在美国实现modellevel。在我们的实证研究中,我们使用Lending Club数据来检验LSTM的稳健性。我们rst将P2P数据从单个级别组合到聚合级别。接下来,我们将整个di的就业率(即unemp\\U率)合并到一起通过匹配日期,将时间点更改为聚合数据。然后,使用LSTMmodelt累计违约率。LSTM方法的优势在于通过将其性能与LSTM模型进行比较(有无unemp\\u比率)来进行rmed。作者认为ndings可以从以下几个方面为aggregativestudy提供参考:oP2P借贷中的序列数据。LSTM模型被证明优于传统使用的时间序列模型综合层面的还款预测。我们发现,加入宏观经济因素是有益的与模型性能相关。介绍P2P借贷市场的相关工作。第3节介绍了LSTM算法及其原始算法——递归神经网络(RNN)。

报纸
kedemingshi 在职认证  发表于 2022-6-14 04:09:00
第4节介绍了我们研究的详细结论。2相关的工作决策树和神经网络,以改进分类贷款状态或提取e的类别准确性cient features that are predictive of default[][][][]。这些研究可以通过提供个人借款人的评估来指导投资者的投资策略。然而,很少有研究描述P2P中违约风险的顺序发展,能够为投资者在P2P市场聚合层面上对违约风险的整体评估提供参考。已经在许多其他领域探索了一种深度学习方法来建模序列数据。例如,RNN在[]中引入了语音系统。LSTM显示为e在基于数据的电子商务中预测客户的未来行为[]。此外,当应用于[]中的交易欺诈和信用评分建模时,LSTM显示出其优于传统使用的时间序列模型。虽然LSTM还没有被应用于聚合级别的顺序P2P数据建模,但我们期望LSTM有其潜力。因此,我们进行了一项实证研究,以rm我们的猜测和研究细节将在第4.3节算法中讨论rst布里讨论LSTM的起源RNN,然后说明LSTM的原理。3.1递归神经网络在传统的前馈神经网络(NNs)中,数据信息朝着一个方向移动:从输入层,通过隐藏层,以及nally到达输出层。因此,NNs只存储他们收到的当前信息,没有过去的记忆。因此,它们在处理顺序数据(如事务数据)时的能力有限,或者在许多研究中显示了其在用时间动态行为建模数据方面的潜力[][]。

地板
可人4 在职认证  发表于 2022-6-14 04:09:03
Di公司与NNs不同,可以存储数据信息和上一步信息。换句话说,RNNNN不[]。图1显示了RNN结构的示例。每个矩形表示一个完全连接的NN结构,精确的NN结构需要自定义di中的nederentstudies)和RNN由重复sameNN结构的链组成。在每个时间戳t处,除了使用时间t(即Xt)处独立变量的值作为输入外,RNN还使用前一个时间戳(即St)的输出作为输入。RNN(即Ot)时间t的输出可使用方程1计算,其中“·”表示Hadamard乘积(即逐点乘法),activationdenotes表示某个激活函数(如assigmoid函数),Wandude记录X和ST的权重矩阵,Bde记录偏差。通过这样做,“内存”可以添加到RNN中,数据的顺序信息存储为timeOtSt+1,每个时间点t的顺序信息相同,前者表示当前输出,后者表示传递到下一时间点t+1的信息。Ot=激活(W·Xt+U·St+b)(1)图1:RNN结构示例的说明图3.2长-短期记忆STM是RNN的一种变体,但它能够长时间记住信息并学习信息的长期依赖性。换句话说,它扩展了“记忆”,并可以从时间间隔很长的输入中学习。图2显示了LSTM结构的示例。与图1中的RNN结构相比,可以发现,在图2中,LSTM包含一个额外的小区状态序列CT,它不仅存储了以前的信息,而且还存储了提前许多步获得的信息。

7
mingdashike22 在职认证  发表于 2022-6-14 04:09:06
类似地,可以使用方程2计算时间t(即,图2中的Otin)时STM的输出,其中wo、Uo和vodenote为相应的权重矩阵(分别为xt、St和ct),bodenote为偏差[]。与图1的RNN中的值类似,ANDST+1的值对于后者是相同的,后者表示传递到下一个时间点T+1的信息。Ot=激活(Wo·Xt+Uo·St+Vo·Ct+bo)(2)图2:LSTM结构示例的示意图根据先前研究的插图[]总结了其详细结构。如图2所示,单元状态的顺序类似于传送带或传送轨道,控制是否输入、存储或删除信息。对于每个cellor输出信息:忘记网关FT(尤其是)从以前的状态中删除信息。如果信息不重要,则输入网关将在当前时间步T取消输出。Ft可以通过方程3获得,其中wfanduf表示遗忘门的x和sto的权重矩阵,bf表示偏差。类似地,它可以通过方程4获得,其中wiandui表示xtstbibibibiasia。在获得通过inputgate(即it)的信息后,LSTM使用另一层生成新的候选状态。候选值cca可通过方程式5获得,其中wkanduk表示x和st的权重矩阵,bk表示偏差。

8
kedemingshi 在职认证  发表于 2022-6-14 04:09:09
最后,可以使用等式6将当前小区状态C更新为新的小区状态C+1,其中*表示矩阵乘法,ft*C表示在时间t时要删除的信息,并且它*表示在下一时间步t+1(即,t+1)中输出的信息CT+1【18】。ft=激活(Wf·Xt+Uf·St+bf)(3)it=激活(Wi·Xt+Ui·St+bi)(4)~C=激活(Wk·Xt+Uk·St+bk)(5)Ct+1=ft* Ct+it*C(6)在LSTM训练期间,连续的细胞状态(例如包括CT-1、Ct和Ct+1)在一系列时间点(包括T-1、t和t+1),因为图1和图2中的每个方块都表示一个完整的传统NNs,例如“节点数”、“批次大小”(即每次迭代中用于传播的样本数)和“时代数”(即学习算法看到整个数据集的次数)。超参数的最佳值需要识别di的ed开始modeltraining之前,请访问其他数据集。4实证研究4.1数据集本文的实证研究使用了通过网站下载的借贷俱乐部数据。该数据集记录了lending Club(美国最大的P2P借贷平台)2007年至2017年间的P2P借贷交易。由于Lending Club是美国最大的借贷平台,因此这些数据很好地代表了美国整个P2P市场。有数百万笔贷款交易,每笔交易都是相同的由唯一ID编辑。对于每个事务,有30多个特性描述借款人的财务信息以及与贷款相关的信息,如开始日期、贷款金额和贷款期限。可变loan\\u状态描述了贷款交易的不同状态:持续、全额支付, 或默认值。

9
能者818 在职认证  发表于 2022-6-14 04:09:12
在我们的研究中,我们删除了仍在进行的贷款案例。全额支付o 或默认值。数据集中的特征主要分为三类:个人财产(PP)、信用信息(CI)或贷款信息(LI)。表1提供了在删除含义模糊的变量后保留变量的描述、类型以及类别。除了目标变量loan\\u状态外,大多数特征都是数字特征,只有三个分类特征。值得注意的是,由于我们的分析将基于总体水平,因此除了个别因素外,探索一些宏观经济因素至关重要。以前的许多研究都证明了这一点,这些研究表明,潜在的贷款状态下宏观经济行为的ect,如失业率和标准普尔500指数[]。在我们的分析中,我们收集onehttps://www.lendingclub.com/info/download-data.actionmacroeconomic使用网站的功能。该功能名为unemp\\u rate,每月记录一次。在下面的分析中,它将作为一个额外的数字特征。4.2数据预处理程序如下所示:(a)删除冗余信息:关于目标变量loan\\u状态,如第4.1节所述,观察值(数字和分类),将缺失/无效的目标变量loan\\u状态的观察值设为“全额支付”或’ 值“0”,而值为“default”的值为“1”。因此,仍有大约一百万次观测,交易时间从2007年10月到2016年1月不等。(b) 分类特征的EDA:探索性数据分析(EDA)的目标是rst了解每个类别特征的分布,然后确定是否应该使用di工具将变量的不同类别放在一起。

10
kedemingshi 在职认证  发表于 2022-6-14 04:09:15
如表1所述,除目标变量外,数据集中只有三个分类特征:home\\u所有权、veri阳离子状态和应用程序类型。以home\\u ownership为例,展示分类功能的数据预处理步骤。图3显示了每层房屋所有权中拖欠的百分比(即,Loan\\u status=1的百分比)。Wilcoxonrank和检验表明铁路超高水平为0.05,有统计学意义铁路超高di六个di中违约百分比的差异不同级别的home\\u所有权。因此,我们保留所有这六个级别,并使用一个热编码方法将每个类别转换为数值[]。类似的策略也适用于veri阳离子状态(包括三个级别:“非验证”编辑\',\'veri“ed”和“源验证”ed)和application\\u类型(包括两个级别:“个人”和“联合应用”)。图3:Di借款人的违约率房主的不同类别shiphttps://datahub.io/core/employment-us#data.(c) 缺失值插补:对于一个热编码转换后的三个类别特征。使用模式值估算其缺失值。对于表1所示的数字特征,采用基于中值的插补。(d) 将数据传输到聚合级别:我们按月聚合数据,以获得P2P市场的每月顺序信息。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-7 03:18