楼主: 何人来此
1115 20

[量化金融] 基于账户聚类分析的信用风险识别 [推广有奖]

11
何人来此 在职认证  发表于 2022-6-1 00:50:21
这表明了在聚类中整合不确定性的重要性。表1:494个信用账户样本使用椭球相异度delland EuclideandInstance deucf从kmedoids聚类中获得的聚类C、C和C的大小。k-medoids聚类#CCCdell244(50%)115(23%)135(27%)deuc307(62%)144(29%)43(9%)使用主成分分析(PCA),k-medoids聚类结果如图2所示(Jolliffe,2010)。将主成分分析应用于VAR参数估计θ,通过降低VAR参数的维数来可视化结果聚类的结构。主成分分析图显示了由前三个组成部分决定的主要趋势。这三个集群似乎没有明确分开,很难在原始参数空间中观察到清晰的模式。为了进一步调查三个集群中账户的行为,我们研究了数据空间中的每种行为。还款金额、信用额度和总余额行为图3中的方框图显示了基于参数空间上执行的不确定性感知聚类结果的数据空间中账户行为的表示。这些图分别代表C、C和C类账户的行为样本均值的对数。与其他两个集群中的账户相比,属于Cseem类的信用账户支付金额较低。该金额在C组略大于C组。如第二幅图所示,最高信贷限额似乎是分配给C组的账户,而C组和C组中的账户的信贷限额中值几乎相等。尽管C组中账户的信贷限额中值低于C组中账户的中值,这两组人似乎都有等量的未偿债务(总余额)。

12
可人4 在职认证  发表于 2022-6-1 00:50:24
这可能是因为他们花了相当多的钱,或者集群成员没有支付他们的订单,或者只支付了少量的债务。可以通过比较三个集群之间的总余额和信贷限额箱线图来探索这一信息。此外,可以清楚地观察到Cand中的极低未付金额和Care中的高未付金额。犯罪计数在本节中,我们探讨了犯罪集群中的犯罪行为。回想一下,该变量未包括在聚类过程中,但VAR参数的聚类分析揭示了拖欠行为的有趣方面,如图4所示。该图表示每个集群内信贷账户在每个月t=1到t=37之间的延迟平均值样本。从图4的左图可以看出,三个集群中的信用账户可以描述为那些从不违约的账户,因为拖欠金额总是小于2。这些账户被分配到C组。C组中的账户也有违约记录,并且当t>20时,该组的违约记录平均值小于C组中账户的违约平均值。相比之下,最后一组包括拖欠金额在其资产负债期内逐渐增加并因此违约的人。因此,与其他两个集群相比,集群Ccan被视为风险最高的群体。从利用欧几里德距离(图4中的右图)的聚类方法获得的拖欠图来看,一般结构似乎与使用椭球相异度度量获得的结构相似。然而,基于欧几里德的聚类方法似乎将一些高风险账户分配给了其他集群。

13
nandehutu2022 在职认证  发表于 2022-6-1 00:50:27
通过比较欧几里德聚类中高风险聚类中拖欠加班时间的总体平均值,以及基于椭球相异度度量的聚类结果进行的测量,这一点显而易见。6、违约预测模型在本节中,我们展示了基于聚类结果建立违约逻辑回归模型的结果。图2:使用主成分,基于椭球相异度Dell对VAR参数估计的k-medoids聚类结果进行可视化。考虑相关误差估计的VAR模型参数。默认状态是在每个帐户的可用报告期内计算的。该预测模型先前在方程式6中定义,其中集群分配是二进制默认状态的预测变量。在本节中,预测模型适用于296个信用账户的培训样本。该模型与默认预测模型进行了比较,默认预测模型中进行了聚类分析,没有考虑VAR参数误差。对198个信用账户的测试样本进行了绩效衡量。表2报告了k-medoids聚类结果默认预测模型的系数估计。有趣的是,在大多数情况下,集群分配对于预测默认状态具有统计意义。仅在使用椭球差异性度量的集群中观察到集群分配对默认状态的影响的不同信号。与聚类C相关的系数表明,相对于聚类C,聚类分配对默认状态有负面影响,而聚类C表明相对于C有正面影响。这表明其中一个聚类中默认类的比例高于其他聚类。

14
大多数88 在职认证  发表于 2022-6-1 00:50:30
当使用欧几里德距离进行聚类时,观察到聚类C具有明显的负系数和高误差。这是因为该集群中的对象数量很少,其中没有一个来自默认类(请参见表3)。表3显示了训练数据中各集群中默认/非默认的频率和比例。椭球相异性度量的结果表明,集群CI中的违约比例相对高于其他两个集群,其次是集群C,集群C的违约比例最低。表4中报告了与聚合模型(方程式8)的账户违约预测性能比较。有趣的是,在聚类分析中加入统计模型参数的不确定性可以提高默认状态的预测性能,AUC值为0.7637(s.e.0.0397)。与聚合模型相比,使用基于椭球相异度量的聚类分配的预测模型的AUC为0.5310(s.e.0.0450),表现也很好。为了提高故障预测性能,创建了其他模型。在逻辑回归模型中,集群分配和聚合行为都作为预测因子。请注意,将集群分配变量添加到聚合模型显示了一个显著的im●●●●●●1 2 3-2聚类平均付款额聚类平均信用额度●●●●●●●总余额的聚类平均值图3:C、C和C类账户的行为。这些行为是在不同的尺度上衡量的。

15
能者818 在职认证  发表于 2022-6-1 00:50:33
聚类结果由k-medoids方法获得,椭球相异度被应用于信贷账户行为数据集的VAR参数估计。表2:基于集群分配预测账户违约的逻辑回归模型系数。聚类分析使用k-medoids方法进行,并提出了椭球相异度度量delland-Euclidean距离deuc。回归模型建立在训练样本上。请注意,CI是基线类别。k-medoids方法估计标准误差z值p(| z |)(a)椭球相异度dellIntercept-1.6964 0.2319 -7.3147 2.58e-13C---C-0.5473 0.4602 -1.1893 0.2343C2.3345 0.3292 7.0916 1.33e-12(b)欧氏距离减半-0.4647 0.1514 -3.0686 0.0022C----C-1.5068 0.3557 -4.2366 2.27e-5C级-17.1014 843.4605 -0.0203 0.9838在默认预测性能和不确定性聚类方面的改进使得聚合模型得到了更大的改进。●●●●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●0 5 10 15 20 25 30 35 0 2椭球体不同的犯罪●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●C1C2C3●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●0 5 10 15 20 25 30 350 2 4 6 8 10 12欧几里德距离MonthDelinquence●●●●● ●● ●● ●●● ●● ●●●●●●●● ●●●●●● ● ●●●●●● ● ●●●C1C2C3C图4:C组、C组和C组中拖欠金额的平均值涵盖了可用的37个月的账户记录。聚类是使用k-medoids方法获得的,该方法具有椭球相异度dell(左图)和欧几里德距离deuc(右图)。对494个账户的VAR参数进行了聚类分析。表3:培训样本中默认/非默认状态的频率。

16
nandehutu2022 在职认证  发表于 2022-6-1 00:50:36
利用椭球相异度测度delland-Euclidean距离deuc的k-medoids聚类方法获得聚类。k-medoids聚类CCCdellnon default(~x=0)127(43%)62(21%)29(10%)default(~x=1)19(6%)8(3%)51(17%)deucnon default(~x=0)117(40%)76(26%)25(9%)default(~x=1)67(23%)11(4%)0(0%)表4:基于使用椭球相异delland标准欧几里德从k-medoids聚类方法获得的聚类分配的默认预测模型的性能评估距离deuc。将这些模型和基于行为聚合平均值的defaultprediction模型进行比较。评估是在保持测试样品上进行的。H-measure KS Gini AUCdell0.3748 0.5443 0.5273 0.7637deuc0.1416 0.3405 0.3563 0.6781骨料模型0.0573 0.1569 0.0620 0.5310骨料模型+del0.3962 0.5543 0.5110 0.7555骨料模型+deuc0.1818 0.3679 0.3527 0.67647。违约预测模型本节侧重于预测信用账户在未来不可见的期间内的违约状态。与前一节中介绍的预测模型一样,聚类分配被用作预测模型中的解释变量。回想一下,聚类是从观察期获得的,而默认值是在预测期内计算的。表5显示了培训数据中默认/非默认类的频率。表5:默认预测模型的培训样本中默认/非默认状态的频率。

17
kedemingshi 在职认证  发表于 2022-6-1 00:50:39
利用椭球相异度测度delland-Euclidean距离deuc的kmedoids聚类方法得到聚类。集群CCCdellnon default(~x=0)165(30%)、127(23%)、114(20%)default(~x=1)6(1%)、30(5%)、119(21%)deucnon default(~x=0)284(51%)、110(19%)12(2%)default(~x=1)152(27%)3(1%)0(0%)表6报告了基于集群分配预测默认状态的逻辑回归模型的系数。有趣的是,系数估计仅在基于不确定性感知的相异性测量的模型中显著。同样,正如前一节预测模型中所观察到的,由于defaultclass的小样本,一些预测模型系数具有高标准误差。表7比较了所提出的预测模型之间的预测性能,其中聚类分配是解释变量。与预测模型类似,所提出的预测模型与预测模型在汇总摘要上进行了比较。最有利的模型是基于关联不确定性的VAR参数聚类模型。对于这种特定类型的应用程序,性能值可能是合理的。最佳模型的AUC为0.7251(s.e.6×10-4) ,而基于模型的AUC表6:基于聚类分配的默认预测逻辑回归模型的系数。聚类分析采用k-medoids方法进行,并采用椭球相异度测度delland-Euclidean距离deuc。回归模型建立在训练样本上。基线聚类为C.k-medoids方法估计Std。

18
能者818 在职认证  发表于 2022-6-1 00:50:42
错误z值p(| z |)(a)椭球体不相似性dellIntercept-3.1209 0.4171 -7.4827 7.28e-14C---C1.8766 0.4463 4.2044 2.62e-5C2.8363 0.4420 6.4175 1.39e-10(b)欧氏距离减数-0.7726 0.1026 -7.5342 4.91e-14C---C-17.7934 639.5973 -0.0278 0.9778C-17.7934 1581.9722 -0.0112 0.9910欧氏距离为0.6123(s.e.4×10-4). 基于汇总汇总的预测模型表现最低,AUC为0.5355(s.e.7×10-4).表7:基于k-medoids聚类方法获得的聚类分配的默认预测模型的性能评估,使用椭球相异度量delland标准欧氏距离deuc。将这些模型和基于行为聚合平均值的defaultforecasting模型进行比较。对试样进行评估。H-measure KS Gini AUCdell0.1825 0.3382 0.4502 0.7251deuc0.0810 0.2237 0.2246 0.6123骨料模型0.0276 0.1219 0.0709 0.5355骨料模型+del0.1744 0.3230 0 0.4094 0.7047骨料模型+deuc0.1130 0 0.2799 0.2172 0.60868。结论本文提出了一种新的行为聚类方法,可以支持行为信用记分卡的构建。在聚类过程中,信贷账户通过其行为的统计参数估计来表示,以表示其相关的序列依赖性。这导致数据的维度显著减少。此外,使用不确定性感知的相异性度量来考虑参数估计的不确定性。考虑到模型参数的不确定性,发现了有趣的行为集群。

19
kedemingshi 在职认证  发表于 2022-6-1 00:50:45
虽然聚类过程中未包括账户的终止行为,但聚类分析能够区分高风险组和低风险组。我们还开发了一个新的默认模型,其中包括可用于预测和预测目的的集群分配。这将为群集分配的默认状态建模。基于椭球相异聚类的预测模型和预测模型均显示出与基于忽略参数不确定性的聚类分析结果的模型相比的良好性能,并且也比基于聚合行为的模型具有更好的性能。通过对账户历史上的时间窗口进行不确定性聚类分析,研究风险水平的变化,可以扩展这项研究。这是该研究的有趣延伸,但需要更长的行为证明。致谢这项工作得到阿卜杜勒·阿齐兹国王大学奖学金基金的支持。参考Adams,N.M.,Hand,D.J.,和Till,R.J.(2001)。挖掘行为数据中的类和模式。运筹学学会杂志,52(9):1017–1024。Bakoben,M.、Bellotti,A.和Adams,N.(2016)。通过引入不确定性提高集群性能。模式识别字母,77:28–34。Bakoben,M.、Bellotti,T.和Adams,N.M.(2015)。从时间序列聚类中学习分段。在《计算数学、计算几何与统计国际会议论文集》中。,第61-65页,新加坡。全球科技论坛。Duda,R.O.、Stork,D.G.和Hart,P.E.(2001)。图案分类。AWiley跨学科出版物。威利,纽约;奇切斯特,第二版。Edelman,D.B.(1992年)。聚类分析在信用控制中的应用。

20
大多数88 在职认证  发表于 2022-6-1 00:50:48
IMA管理数学杂志,4(1):81–87。Fawcett,T.(2006年)。ROC分析简介。模式识别字母,27(8):861–874。Friendly,M.、Monette,G.和Fox,J.(2013)。椭圆洞察:通过椭圆几何了解统计方法。统计科学,28(1):1–39。Hand,D.J.(2009)。衡量分级绩效:ROC曲线下区域的一致替代方案。机器学习,77(1):103–123。Hastie,T.、Tibshirani,R.和Friedman,J.H.(2009)。统计学习的要素:数据挖掘、推理和预测。Springer系列不稳定性,。Springer,纽约州纽约市,第二版。谢北川(2004)。用于分析银行客户的集成数据挖掘和行为评分模型。专家系统与应用,27(4):623–633。Jolliffe,I.T.(2010)。主成分分析。统计学中的斯普林格级数。纽约斯普林格;伦敦,第二版。Kaufman,L.和Rousseeuw,P.(1987年)。在Y.Dodge(Ed.)中,基于L1范数的统计数据分析,通过medoids进行的章节聚类,第405–416页。爱思唯尔/荷兰北部,阿姆斯特丹。Kaufman,L.和Rousseeuw,P.J.(2008)。在数据中查找组:聚类分析导论。新泽西州霍博肯威利。Lütkepohl,H.(2005年)。多时间序列分析的新介绍。柏林斯普林格。Robert,C.和Casella,G.(2010年)。与R.Springer,纽约介绍蒙特卡罗方法;伦敦Thomas,L.C.(2009)。消费者信贷模型:定价、利润和投资组合。牛津大学出版社,牛津。Thomas,L.C.、Edelman,D.B.和Crook,J.N.(2002)。信用评分及其应用。暹罗数学建模和计算专著。工业与应用数学学会,宾夕法尼亚州费城,Till,R.J.和Hand,D.J.(2003)。信用卡使用行为模式。《应用统计学杂志》,30(10):1201–1220。Wei,G。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-4-22 21:33