楼主: mingdashike22
1063 17

[量化金融] 网络担保贷款违约预测 [推广有奖]

11
能者818 在职认证  发表于 2022-5-31 04:27:08
,n}。4) 通过函数Di=D(x,xi)=D(x,xi)σ对距离进行规格化∈ [0,1]。然后用核函数K(·)将Di转换为权重wi=K(Di)。5) 计算总加权类标签。设为预测类标签;我们有两种方法来进行估计。对于分类方法,我们有y=maxrPxi∈NwiI(y+i=r)对于回归方法y=Pxi∈NwiyiPxi∈北威。估算Pg(A | x):违约的可能性从x扩散到A。一旦被担保人违约,将在过滤记录表x中添加一个标签列,如图5(b)所示。标签值由其担保人在给定时间窗口ω内的情况决定。如果担保人违约,此被担保人记录的标签将设置为1,否则设置为0。我们从担保人到被担保人提取边缘特征,包括担保金额、贷款金额、被担保人程度、担保人程度和双方的基本公司注册信息。我们应用P-WKNN来训练扩散概率。对于新的保证关系,我们找到其k个最近正邻域,然后按照P-wkNN算法估计值。图5:(a)。典型的担保网络。(b) 。左图为贷款担保网络表X。D、 做出预测。在实践中,借款人可能有一个或多个担保人,形成一组有向无环图,如图5(a)所示。监管部门禁止在担保网络中使用循环图。违约风险概率直接从借款人扩散到担保人,这意味着概率更新需要遵循信号导向的依赖链。如图5所示,节点B既可以是借款人,也可以是担保人。如果我们想要获得节点B的默认概率,我们需要提前计算节点E和节点D。节点D同时是从属节点E。

12
kedemingshi 在职认证  发表于 2022-5-31 04:27:11
所有这些都使得更新路径更加复杂。算法1 d阶扩散近似输入:Ps(A),Pg(A | x)和阶数d.1:初始化:2:P(A)← 03:表X← (x,A,Ps(A),Pg(A | x))4:程序乐趣(A,d)5:如果d=0或Aoutdegree=0,则返回Ps(A)7:否则ifPi∈1: mP(A | xi)=0然后8:返回Ps(A)9:else10:对于Od中的每个x(A)do11:返回乐趣(x,d- 1) 因此,我们设计了一个d阶风险扩散算法来预测违约风险。这是一种基于BFS(广度优先搜索)的递归算法。首先,给定历史事件流,我们估计Ps(A)和Pg(A | x),如第4.3节所述,设置超参数d,即网络担保贷款的扩散顺序。其次,我们以(x,A,Ps(A),Pg(A | x))的格式构造表xa,并将输出概率P(A)初始化为0。第三,设置递归停止条件和主过程。如果扩散阶d等于0或A不能为其他扩散阶提供任何保证,则我们通过Ps(A)返回P(A)。同时,如果所有Pg(A | xi)都为0,则P(A)也等于Ps(A)。在其他条件下,对于每个节点∈ Od(A)={xi | NA,d,i,i∈ 1:m},计算P(x)作为给定的nps(x),Pg(x | Nx,d-1,i),根据第4.3节估算。为了进行简单的说明,我们将方程4重新表示为函数FUN(A),然后我们得到以下公式:P(A)=FUN(A)=FUN(x | x∈ Od(A))(5)算法1给出了伪码。E、 复杂性分析。假设总共有n个借款人,每个借款人有m个担保人。由于每个保证人的递归次数不同,我们将每个顶点的度数近似为voueas,递归深度近似为depth。如果扩散顺序d小于深度,则该函数将被称为vdouttimes;否则,对于每个担保人,该函数将被调用为dvdepthout。因此,函数调用次数是n·m·vdepthout和n·m·vdout的最小值。

13
能者818 在职认证  发表于 2022-5-31 04:27:14
最后,时间复杂性是n·V输出空间复杂度为O(n)。四、 实验。对预测性能进行了实证研究。接下来,我们简要回顾数据集,然后报告结果。A、 数据描述该数据集涵盖了过去三年23096家企业的信贷行为。共有3218428份银行贷款记录,其中163665份有违约记录,251743份担保记录,总金额为11470亿美元。如前所述,我们预测违约概率。对于每个小型企业,我们使用3个序列作为一个功能。如果在接下来的3个序列中默认,则将标签设置为1,否则设置为0。然后,我们将窗口滑动3,为下一个T3序列生成特征作为预测窗口和验证窗口。我们在验证窗口中测量结果。所有从事信贷活动的小企业都将被指派预测违约概率。然后,我们用真实的还款记录来验证这种可能性,并对不同的方法进行AUCscore。根据我们的实验和领域知识,我们将最近邻sk的数目从1设置为10,扩散度d从0设置为6。d的选择基于对训练数据的分析。B、 结果。如前所述,主要挑战是数据不平衡和扩散风险。我们首先将我们提出的P-wkNN与最新的不平衡学习方法进行比较,如SMOTE【5】、过采样、欠采样、单侧选择(OSS)】【15】、编辑最近邻(ENN)】【22】和邻域清理规则(NCL)】【3】。图6给出了AUC曲线。很明显,我们提出的PWKNN优于经典方法,具有更大的实用价值。此外,我们增加了k的值以查看其图。6: 与经典的不平衡学习方法相比。无花果

14
kedemingshi 在职认证  发表于 2022-5-31 04:27:17
7: 改变扩散阶数d和pwkNN值。对性能的影响。我们可以看到,我们的方法总是比其他方法更好。当k值小于5时,它们都有明显的上升,当k值变大时,AUC逐渐稳定。第二个实验是探索扩散的影响。我们改变了扩散模型的k和d值,得到了预测结果。我们可以看到,k值越大,性能越好。一旦k大于5,AUC就会变得相当稳定。对于各种k值,考虑defaultdiffusion(d=1)比不考虑扩散(d=0)的假设要好得多。这表明邻里借款人和被担保人之间确实存在违约扩散。但是,默认值不会跨多个节点扩散。最后,通过实验验证了该方法的有效性。我们设计了强基线算法,并将精确度、召回率和F1分数与以下方法进行比较:1)INDDP:不平衡网络扩散默认预测,我们提出的网络保证默认预测方法。2) P-wkNN:我们提出的不平衡学习分类模型。3) wkNN:距离加权k-NN算法,是k-NN分类算法的一个补充,它根据每个k邻居到查询点的距离对其贡献进行加权,从而获得更大的权重表I:默认预测的结果。不平衡扩散精度召回F1 ScoreINDDP√ √0.81 0.75 0.78P-wkNN√- 0.72 0.75 0.73wkNN√0.64 0.76 0.69RF?0.59 0.67 0.63SVM?0.59 0.65 0.62LR?0.54 0.63 0.58到近邻。

15
mingdashike22 在职认证  发表于 2022-5-31 04:27:20
我们的P-wkNN是原始wkNN的扩展[18]。4) 随机森林(RF):一种用于分类、回归和其他任务的集成学习方法,已在信用风险评级程序中证明有效【12】。5) 支持向量机(SVM):一种经典的监督学习模型,被证明是最有效的信用风险评估工具之一【30】。6) 逻辑回归(LR):经典的信用评估模型,广泛应用于金融行业[1]。根据前面的实验,我们将k设为5,d设为1。我们的方法最适合这种参数设置。表一总结了结果:IDNNP在精确度、召回率和F1得分方面优于所有基线,表明考虑不平衡和网络扩散的全范围至关重要。五、 结论。本文提出了一种专门定制的算法,用于自动预测网络担保的违约风险。与许多其他财务任务一样,数据极不平衡。现有网络和潜在的违约扩散使得风险评估更加困难。我们采用经典的KNN来处理不平衡数据集,使用它以数据驱动的方法来估计网络扩散风险,而不是对扩散物理模型进行正演建模。我们进行了实证实验,给出了网络担保贷款记录的最佳参数设置,并与最先进的信用评级方法进行了比较。未来的工作将包括重新确定方法,并尝试更复杂和不平衡的学习任务。六、 致谢本工作得到了上海市科委重点基础研究项目(15JC1400103、16JC1402800)和国家基础研究项目(2015CB856004)的支持。参考文献[1],如阿尔特曼和萨巴托。中小企业信用风险建模:来自美国市场的证据。

16
kedemingshi 在职认证  发表于 2022-5-31 04:27:23
Abacus,43(3):332–3572007。[2] B.Baesens、R.Setiono、C.Mues和J.Vantienen。使用神经网络规则提取和决策表进行信用风险评估。《管理科学》,49(3):312–3292003。[3] G.E.Batista、R.C.Prati和M.C.Monard。平衡机器学习训练数据的几种方法的行为研究。ACMSIGKD探索通讯,6(1):20–29,2004年。[4] T.比格斯。小的漂亮,值得补贴吗?文献综述。国际金融公司(IFC)。华盛顿特区,2002年。[5] N.Chawla、A.Lazarevic、L.Hall和K.Bowyer。斯莫特Boost:在boosting中改进对少数民族阶级的预测。数据库中的知识发现:PKDD 2003,第107–119页,2003年。[6] R.DeYoung、A.Gron、G.Torna和A.Winton。风险悬置和贷款组合决策:金融危机之前和期间的小企业贷款供应。《金融杂志》,70(6):2451–24882015。[7] A.Garcia Tabuenca和J.L.Crespo Espert。信用担保和效率低下。《小企业经济学》,35(1):113–128,2010年。[8] H.Han、W-Y.Wang和B-H.Mao。边界smote:非平衡数据集学习中一种新的过采样方法。智能计算的进展,第878-8872005页。[9] D·J·汉德和W·E·亨利。消费者信用评分的统计分类方法:综述。皇家统计学会杂志:A辑(社会统计),160(3):523–5411997。[10] H.他和E.A.加西亚。从不平衡数据中学习。IEEETransactions on knowledge and data engineering,21(9):1263–12842009。[11] M.T.Irfan和L.E.Ortiz。网络影响的博弈论方法。2011年,AAAI。[12] S.Jones、D.Johnstone和R.Wilson。对二元分类机构在预测信用评级变化方面的绩效进行实证评估。《银行与金融杂志》,56:72–852015。[13] A.E.Khandai、A.J.Kim和A.W.Lo。

17
nandehutu2022 在职认证  发表于 2022-5-31 04:27:26
通过机器学习算法建立消费者信贷风险模型。《银行与金融杂志》,34(11):2767–2787,2010年。[14] B.Kovalerchuk和E.Vityaev。《金融数据挖掘:关系和混合方法的优势》,第547卷。施普林格科学与商业媒体,2000年。[15] M.Kubat,S.Matwin等,《解决不平衡训练集的诅咒:单方面选择》。ICML第97卷第179–186页。美国纳什维尔,1997年。[16] J.Laurikkala。通过平衡班级分布,提高对不同小班的识别能力。《医学艺术情报》,第63-66页,2001年。[17] J.莱维斯基。中小企业信用担保计划——国际综述。《小企业发展》,8(2):4–171997年。[18] J.E.Macleod、A.Luk和D.M.Titterington。重新审查距离加权k-最近邻分类规则。IEEETransactions on Systems,Man,and Controlnetics,17(4):689–6961987。[19] X·L·X·孟。中国贷款担保链信用风险评估。2015年【20】牛梓,程德成,闫杰,张杰,张乐,查赫。贷款担保网络风险评估的混合方法。arXiv预印本XIV:1702.046422017。【21】牛子江、郑德成、张立群、张建军。用于网络担保贷款风险管理的可视化分析。2018年IEEE太平洋可视化研讨会(Paci fic Visualization Symposium,Paci fi cVis)。IEEE,2018年。[22]J.-P.Onnela等人,《金融和社会系统研究中的复杂网络》。赫尔辛基理工大学,2006年。[23]L.E.彼得森。K-最近邻。Scholarpedia,4(2):18832009年。【24】M.Ruzzier、R.D.Hisrich和B.Antoncic。中小企业国际化研究:过去、现在和未来。《小企业与企业发展杂志》,13(4):476–49720006。[25]J.Tang、J.Sun、C.Wang和Z.Yang。大规模网络中的社会影响分析。

18
kedemingshi 在职认证  发表于 2022-5-31 04:27:29
第15届ACM SIGKDD国际知识发现和数据挖掘会议记录,第807–816页。ACM,2009年。[26]D.D.Wu、S.H.Chen和D.L.Olson。风险管理中的商业智能:一些最新进展。信息科学,256:1–72014。【27】肖S、严J、李C、金B、王X、杨X、朱世民、查H。关于建模和预测随时间变化的个人论文引用数量。IJCAI,第2676–2682页,2016年。[28]J.Yan、M.Gong、C.Sun、J.Huang和S.M.Chu。销售渠道WINPROPERTY预测:回归方法。在综合网络管理(IM)中,2015年IFIP/IEEE国际研讨会,第854–857页。IEEE,2015年。[29]J.Yan、C.Tian、J.Huang和F.Albertao。增量字典学习用于故障检测,并将其应用于输油管道泄漏检测。《电子快报》,47(21):1198–11992011。[30]L.Yu、X.Yao、S.Wang和K.K.Lai。使用加权最小二乘支持向量机分类器进行信用风险评估,并设计参数选择实验。《专家系统与应用》,38(12):15392–153992011。【31】周志浩、刘晓勇。用解决类不平衡问题的方法训练代价敏感神经网络。IEEE知识与数据工程学报,18(1):63–772006。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-10 17:10