楼主: mingdashike22
785 20

[量化金融] 在线消费信贷风险的神经学习 [推广有奖]

11
kedemingshi 在职认证  发表于 2022-6-24 02:30:30
我们的数据集中的消费者需要在2016年11月1日至2018年11月1日期间在平台上进行过至少三次借贷实例,即至少有三次历史贷款。为了限制贷款顺序的长度,只记录每个消费者最接近的15笔贷款。这样,数据集中的每个消费者都拥有一个时间贷款序列,最小长度为3,最大长度为15。对于贷款序列中的每笔贷款,仅记录该贷款发放前6个月内的订单以及该贷款发放前14天内的会议。这是因为排序和浏览操作对预测违约风险的贡献被认为是时间敏感的。例如,客户不太可能花两周以上的时间来决定是否购买某样东西。因此,当前贷款前14天以上的浏览行为可能没有帮助。在该贷款发放前,少于3个订单或3个会议被取消。这样,贷款序列中的每个贷款都具有一个时间顺序子序列和一个时间会话子序列,这两个序列的最小长度为3,最大长度为15。从满足上述要求的消费者中,随机选择2500名贷款序列中无违约记录的消费者,随机选择2500名贷款序列中至少有一条违约记录的消费者。当消费者拖欠贷款超过90天时,会生成默认记录。总共挑选了5000名消费者。表1:贷款汇总统计。贷款数量为38182笔,其中11184笔贷款违约。

12
kedemingshi 在职认证  发表于 2022-6-24 02:30:33
变量名称l.amt、term、int.rate和l.itv分别表示贷款金额(CNY)、贷款利率(月)、年化利率(%)和连续贷款之间的时间间隔(天)。可变平均值SD第5位第25位中位数第75位第95位海蓝色。金额322.09 756.71 18.69 51.49 107.61 227.01 1439.61期限1.87 1.97 1.00 1.00 1.00 6.00int。费率2.18 4.41 0.00 0.00 0.00 0.00 12.00l。itv 16.48 30.72 0.00 0.00 4.00 17.00 80.00违约贷款。金额312.52 722.52 19.97 50.01 105.55 230.83 1299.01期限2.52 2.67 1.00 1.00 1.00 3.00 6.00int。费率3.64 5.26 0.00 0.00 0.00 9.60 12.00l。itv 11.40 24.22 0.00 0.00 2.00 10.00 57.00非违约贷款。金额326.06 770.41 16.97 52.41 107.89 224.49 1497.81期限1.60 1.50 1.00 1.00 1.00 6.00int。费率1.58 3.86 0.00 0.00 0.00 0.00 12.00l。itv 18.58 32.82 0.00 0.00 5.00 21.00 87.00最后,数据集包含38182笔贷款,其中11184笔是默认贷款,499572笔订单,356338次点击。平均而言,每个消费者有7.64笔贷款,每个贷款与13.08个订单和9.33个会话相关,即贷款序列、订单子序列和会话子序列的平均长度分别为7.64、13.08和9.33。表1、2和3显示了贷款、订单和点击会话的一些特征的描述性统计信息。在我们的数据集中,有38182笔贷款面向5000名消费者,其中11184笔包括贷款金额、贷款期限和利率。此外,当前贷款和最后一笔贷款之间的时间间隔也很重要。如表所示,违约贷款往往贷款金额较小,贷款期限较长,利率较高,借款间隔较短。我们的数据集中有499572笔订单,涉及38182笔贷款,其中平均有149564笔订单。订单的主要特征包括订单金额、折扣金额、购买的商品数量(QTY),购买的类别数量(类别。

13
nandehutu2022 在职认证  发表于 2022-6-24 02:30:37
购买)。表2:订单汇总统计。订单数量为499572份,其中149564份在违约贷款的子序列中。变量名称oamt、damt、qtty、catep和oitv分别表示订单金额(CNY)、折扣金额(CNY)、采购数量、采购商品类别数量和连续订单之间的时间间隔(天)。可变平均SD第5位第25中位数第75位第95thAllOrdersoamt 664.35 10746.74 28.53 57.06 171.18 399.42 3024.21damt 77.55 288.74 0.00 0.00 0.00 57.06 313.83QTY 2.73 14.52 1.00 1.00 1.00 1.00 2.00 7.00类别1.82 1.72 1.00 1.00 1.00 2.00 2.00 5.00 OITV 7.78 14.78 0.00 0.00 2.00 9.00 34.00订单w.r.t.Default Loansoamt 579.33 7847.55 28.53 57.06 142.65 370.89 2995.68达姆59.96 216.95 0.00 0.00 0.00 57.06 256.77QTY2.49 15.53 1.00 1.00 1.00 2.00 6.00catep 1.69 1.61 1.00 1.00 1.00 2.00 5.00oitv 6.34 13.88 0.00 0.00 0.00 1.00 6.00 30.00订单w.r.t.非违约贷款700.68 11769.62 28.53 85.59 171.18 399.42 3195.39damt 85.06 314.16 0.00 0.00 85.59 342.36qtty 2.83 14.07 1.00 1.00 1.00 3.00 8.00catep 1.87 1.76 1.00 1.00 2.00 5.00oitv 8.40 15.11 0.00 0.00 2.00 10.00 36.00此外,当前订单和最后订单之间的时间间隔也很重要。如表所示,违约贷款通常与订单金额较低、折扣金额较低、订单内产品项目和类别较少、订单间隔较短的订单有关,这表明存在非理性消费的可能性。我们的数据集中有356338个会话,涉及38182笔贷款,其中平均102425个会话。点击会话的主要功能包括会话中的点击次数(点击次数)、访问的类别数(类别访问)和会话持续时间。

14
能者818 在职认证  发表于 2022-6-24 02:30:40
此外,当前会话和最后一个会话之间的时间间隔也比较长,会话的持续时间也比较长,这表明用户粘性较高。表3:单击会话的汇总统计信息。会话数为356338,其中102425个会话位于违约贷款的子序列中。变量名nclick、catev、duration和sitv分别表示单击次数、访问的类别数、会话持续时间(分钟)和连续会话之间的时间间隔(分钟)。请注意,sitv的值小于15分钟。这是因为点击到会话的收集每天都在进行,因此sitv时间少于15分钟的会话意味着当前会话发生在今天午夜之后。可变平均SD第5位25分位数第75位95分位数点击10.66 17.51 1.00 2.00 5.00 12.00 40.00catev 1.94 1.55 1.00 1.00 2.00 5.00持续时间120.09 454.27 0.00 0.94 18.42 105.08 572.39sitv 401.58 438.80 0.00 35.78 206.23 697.48 1312.65课时w.r.t默认贷款点击11.61 20.11 1.00 2.00 5.00 13.00 44.00catev 2.00 1.67 1.00 1.00 1.00 2.00 5.00持续时间122.47 436.29 0.00 0.94 19.84 109.09582.31sitv 396.00 436.61 0.00 35.92 199.27 682.12 1309.10会话w.r.t.非默认贷款单击10.28 16.33 1.00 2.00 5.00 12.00 38.00 CATEV 1.91 1.00 1.00 1.00 1.00 2.00 5.00持续时间119.13 461.33 0.00 0.71 17.71 103.19 568.00sitv 403.82 439.66 0.00 35.67 208.83 703.43 1313.954方法浏览、订购,并以借贷作为输入,以字母表示矩阵输出消费信贷风险。附录6中提供了变量符号的摘要。

15
何人来此 在职认证  发表于 2022-6-24 02:30:43
向量和矩阵的形状也可以在摘要中找到。4.1输入定义对于电子商务平台上的消费者,其借款行为形成贷款序列L={li | i=1,,…,T},其中是贷款发放的时间戳和li∈ Rdlis:包含与loani相关变量的向量。Dl是LI的维数。贷款变量是一种时间特性,指定此贷款和上次贷款之间的时间间隔。对于每笔贷款,将在预设观察期之前和之内的订购操作分配给贷款,以形成相应的订购子序列。totalTorder子序列中有o={Oi | i=1,,…,T},其中Oi={Oi,1,Oi,2,…,Oi,| Oi |}是loani的顺序子序列。oi,j∈ RDOI是包含订单信息的向量,如订单金额、oi维度的productdoof,j。自上次单击后15分钟或更长时间后单击,并以与订单相同的方式贷款。这给出了浏览会话的子序列s={Si | i=1,,…,T},其中Si={Si,1,Si,2,…,Si,| Si |}是loani的浏览会话子序列。si,j∈ Rdsis包含会话Jofloanis中的浏览信息的向量,如会话持续时间、页面时间、总点击次数以及此会话与上次会话之间的时间间隔等。Ds是si的维度数,j、 图2.4.2所示为一个示例性数据结构序列编码NeuCredit最基本的组成部分是用于学习行为动力学的递归单元。通常,长-短期记忆(LSTM)神经网络(Hochreiterand Schmidhuber 1997,Gers et al.1999)被视为许多序列建模任务中最流行和有效的持续单元(Ren et al.2015,Wang et al.2016,Yang et al.2017)。

16
能者818 在职认证  发表于 2022-6-24 02:30:48
然而,传统的序列模型,包括LSTM,隐含地认为序列中的元素是离散的,并且沿时间线均匀分布,即连续元素之间的时间间隔是相等的。大多数图2中并非如此:结构化时间序列消费者行为的示例。为消费者提供一系列贷款。贷款、订单和会话分别标记为红色、绿色和紫色。用红色方块标记的时间戳在贷款发放时。LIISOIISIA一组会话向量,构成loani的会话子序列。如果贷款在时间上聚集,子序列将相互重叠(如图中贷款2和贷款3的子序列)。由于时间上的不规则行为,每个序列中连续元素之间的时间间隔不相等。现实生活中事件连续随机发生的任务。消费者行为之间的时间间隔可以在许多场景中揭示有价值的信息,包括信用风险建模。例如,最近购买昂贵的现金商品表明经济状况良好,而几个月前的购买可能不会对预测当前为订单融资而发放的贷款的违约风险起到积极作用。在我们的情况下,贷款序列中的事件以及相关顺序子序列和会话子序列中的事件都会不规则地及时发生。因此,在建模时必须考虑这些不规则性。在文献中,最直接的方法是将序列中两个连续元素之间的时间间隔视为一个额外特征,以便标准LSTM像以前一样适用。

17
mingdashike22 在职认证  发表于 2022-6-24 02:30:51
如等式(1)所示,这通过LSTM中的激活函数,近似地模拟了时间间隔对其他特征的非线性影响。在方程式(1)中,是实现元素Wise乘法的Hadamard乘积运算符,σ(·)和tanh(·)是将非线性引入拟合的激活函数,Xt表示当前输入向量,是当前时间戳和上一个时间戳之间的时间间隔,ht-1和H是以前和当前的隐藏状态,ct-1和ctare之前和当前的单元存储器,{Wi、Ui、bi}、{Wf、Uf、bf}、{Wo、Uo、bo}、和{Wc、Uc、bc}分别是输入、遗忘、输出门和候选存储器的可训练网络参数,而it、ft、ot和ctare输入、遗忘、输出门和候选存储器。it=σ(Wi[xt;t] +Uiht-1+bi)ft=σ(Wf[xt;t] +Ufht-1+bf)ot=σ(Wo[xt;t] +UHT-1+bo)~ct=tanh(Wc[xt;t] +Ucht-1+bc)ct=英尺 计算机断层扫描-1+itctht=ot tanh(ct)(1)这些向量和矩阵的形状见附录6。关于长-短期记忆神经网络的理论和细节,请参考Hochreiter和Schmidhuber(1997)以及Gers等人(1999)。或者,Baytas等人(2017年)首次通过提出时间感知的LSTM(T-LSTM)来明确建模时间间隔的影响。而不是关于tas是一个常见的特性,作者使用它来处理单元格内存Ct-1在标准LSTM中。具体而言,电池存储器-1首先分解为短期记忆和长期记忆。然后是GTG·非递增函数。长期记忆和贴现的短期记忆是下一个应用到CT中的-1在标准LSTM中充当原始细胞存储器的角色。

18
kedemingshi 在职认证  发表于 2022-6-24 02:30:54
上述操作的数学形式如下,cSt-1=tanh(WDct-1+bD)cLt-1=ct-1.- cSt公司-1cSt公司-1=cSt-1.* g级(t) ct-1=cLt-1+cSt-1(2)(2)ct-1cSt公司-1冷却液-1长期记忆和长期记忆,分别为cSt-1是贴现短期记忆,WD和B是可训练的网络参数,用于分解,和CT-1是新的单元内存,将取代原始的ALCT-1在方程式(1)中。根据Baytas et al.(2017),T-LSTM在合成和真实序列数据上的表现都比标准LSTM好得多。然而,这种方法在某种程度上是有问题的。首先,它使用了一个预设函数(·),该函数只允许对细胞记忆进行单调的非递增折扣,从而阻止了细胞记忆在时间上的增强。这种设置在实践中过于严格,因为从长远来看,某些活动会产生影响,它们的重要性甚至会自然增长。例如,存入银行的金额可以以最高利率持续增长。其次,方程式(2)中的第三个公式隐含地假设值-1GT使其难以锻造(t) 对高维信息进行折扣。这种约束是由网络参数WD引起的,该参数在运行期间保持维数。如何不影响建模。T-LSTM的。Tva LSTM非常灵活,允许细胞内存随时间衰减和增长。衰减或增长率是可训练的,因此折扣过程是数据驱动的。贴现是在高维空间中进行的,每个维度都有自己的贴现率。此外,贴现机制是在合理假设tct的基础上从理论上推导出来的-1首先映射到由矩阵表示的高维空间-1、同时,贴现矩阵-1具有相同形状的asCt-1由初始化t。

19
kedemingshi 在职认证  发表于 2022-6-24 02:30:57
那么,Dt-1倍数Ct-1明智地考虑不同维度的不同贴现率。最后,产品矩阵xCDT-1被映射回低维空间,作为新的细胞存储器CT-1、通过激活函数引入非线性。上述运算的数学形式如下:-1=tanh(ct-1wH+BH)Dt-1=etanh(WR*t+BR)CDt-1=tanh(Ct-1. Dt公司-1+BD)ct-1=tanh(CDt-方程式(3)中的1wL+bL)(3),ct-1是标准LSTM、Ct中的单元存储器-1是高维空间中的映射单元内存,Dt-1是相应的贴现矩阵,CDt-1是折扣映射单元内存,和CT-1是一种新的单元存储器,它将取代原来的ALCT-1在方程式(1)中。{wH,BH}是负责将细胞记忆映射到高维空间的可训练参数。{WR,BR}是对映射单元内存进行折扣的bd。{wL,bL}是将折扣映射单元内存映射回低维空间的可训练参数。请注意,贴现系数dt-1采用指数形式。事实上,这种特殊形式可以通过假设映射单元内存中的元素是图3:Tva LSTM循环单元的图示来推导。带圆圈的乘积符号表示逐点乘法运算符,带圆圈的加号表示逐点加法运算符。贴现模块内的操作分别表示激活函数σ(·)和tanh(·)。随着时间的推移,以不同的速率不断变化。由于推导过程很简单,为了清楚起见,我们将其放在附录6中。图3简要说明了拟议的Tva LSTM循环机组。

20
大多数88 在职认证  发表于 2022-6-24 02:31:00
具体而言,Tva LSTM采用隐藏状态-1和单元格存储器-1从最后一刻起作为输入。在将它们传递到不同的门之前,细胞内存首先进入贴现单元,以调节最后时刻和当前时刻之间的时间间隔。在discountingunit中,单元格内存-1将首先映射到高维空间,然后通过贴现因子矩阵对元素进行明智的贴现,最后映射回原始低维空间。如等式(3)所示,时间间隔正则化的完整过程是数据驱动的,这样映射参数和衰减/增长率参数都可以通过反向传播与其余网络参数同时学习。随着时间的推移,这种记忆也会给高维空间中的不同维度分配不同的变化率。贴现后,隐藏状态-1和正则化细胞记忆ct-1通过典型的LSTM闸门。4.3多视图融合NeuCredit模型的另一个关键组件是用于组合主贷款序列及其相关子序列的融合策略。融合的目的是对行为互动的相互影响进行整合建模。在本研究中,order和sessionsub序列分别通过两个Tva LSTM进行编码。融合在贷款序列中的每笔贷款发放时进行。以Loania的融合为例,融合的输入是loan vectorli,第i阶子序列Oi的Tva LSTM的最终隐藏状态Oi,以及第i个会话子序列的Tva LSTM的最终隐藏状态Si。一个直截了当的想法是,首先将三个向量连接起来,然后将其通过一个具有非线性激活函数σ(·)的完全连接的神经网络层,即zi=σ(WF[li;hoi,| Oi |;hsi,| Si |]+bF)。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-10 21:17