楼主: kedemingshi
2176 60

[量化金融] 基于机器学习的金融信用风险分析 [推广有奖]

41
kedemingshi 在职认证  发表于 2022-6-6 21:31:13
5.1数据集1:韩国企业破产5.1.1数据可视化人类的视觉皮层无法理解六维空间,因此为了能够直观地识别数据中的模式,需要将特征投影到低维子空间;最直观的子空间是二维(图11)和三维(图12)。注意,标记为破产的数据用橙色表示,非破产数据用紫色表示。可以看出,所有四种降维技术都能够很好地分离两个簇。特别是,使用PCA、LDA和核PCA的后投影数据是线性可分离的。虽然从ISOMAP结果可以看出破产样本和非破产样本之间有一个清晰的边界,但分离边界是非线性的。基于视觉评估,无法感知使用机器学习32 Jacky C.K.Chow-2018年2月特征而非两个特征对金融信贷风险进行三重分析的显著好处。因此,将选择二维子空间,以简化分类结果并使其更好地可视化。为了更好地理解不同降维方法的影响,将对四个二维数据集应用不同的分类器。图11:韩国破产数据的二维可视化第5章:结果和分析JackyC.K。

42
nandehutu2022 在职认证  发表于 2022-6-6 21:31:16
Chow-2018年2月33日图12:韩国破产数据集的三维可视化5.1.2二元分类图13、14、15和16分别说明了使用PCA、LDA、ISOMAP和核PCA预测训练和测试数据集上的不同机器学习模型计算的决策边界。在这些图的最后一列中,还提供了相应的混淆矩阵,以显示其分类精度以及I型和II型错误。在线性可分子空间(即图13、14和16)中,逻辑回归、决策树和AdaBoost都能够学习简单的线性边界。在这种情况下,从决策树桩构建的AdaBoost(如第2.2.5节所述)给出了与决策树分类器相同的结果。来自K-D树的不规则决策边界和来自SVM、ANN、GP的曲线边界提供了相似的分类精度,但可以认为,在这种情况下,它比必要的更复杂。在ISOMAP投影场景中(图15),数据在二维空间中不是线性可分离的,非线性分类器的性能优于逻辑回归。在这种情况下,决策树和AdaBoost能够自动学习线性决策边界不足的事实,并使用不同的非线性边界将这两类分开。使用机器学习分析金融信用风险34 Jacky C.K.Chow-2018年2月第5章:结果和分析Jacky C.K.Chow-2018年2月35图13:PCA转换特征上不同类别的决策边界和混淆矩阵使用机器学习分析金融信用风险36 Jacky C.K。

43
kedemingshi 在职认证  发表于 2022-6-6 21:31:19
Chow-2018年2月图14:LDA转换特征上不同类别的决策边界和混淆矩阵第5部分:结果和分析Jacky C.K.Chow-2018年2月37使用机器学习分析金融信贷风险38 Jacky C.K.Chow-2018年2月图15:ISOMAP转换上不同类别的决策边界和混淆矩阵特征Schapter 5:结果和分析Jacky C.K.Chow-2018年2月39图16:核PCA转换特征上不同类别的决策边界和混淆矩阵研究上述混淆矩阵表明,II型错误(即公司可能经历破产,但由于“健康”而未能被检测到)比I类错误(即标记为破产的公司,而事实上并非如此)。从银行或其他贷款官员的角度来看,这是不利的。与放弃贷款利率相比,向最终破产的公司贷款可能会耗费银行更多的资本。上面测试的大多数分类器最擅长的是预测一家公司不会破产,而事实上他们的财务状况是稳定的。表1总结了使用不同降维机制的各种二元分类方法的分类准确度、精确度、召回率和F1分数。由于原始输入特征是离散的(即使用机器学习40 Jacky C.K.Chow进行的金融信贷风险定性度量分析-2018年2月转换为数值),不同场景的计算质量度量是量化的,可以按颜色分组。

44
mingdashike22 在职认证  发表于 2022-6-6 21:31:23
绿色表示该质量度量中的最佳性能,黄色表示平均性能,红色表示相对性能最差。无论采用何种降维方法和分类模型,所有案例的结果都是相似的。这表明,结果对所使用的确切模型不太敏感。根据表1,LDA是该数据集的首选降维方法,因为这两个类之间的距离足够大,所有分类模型,无论是线性还是非线性,都表现得相当好,提供了一组一致的结果。使用LDA,最好使用最简单的线性分隔符,即逻辑回归。在该数据集中,总体分类误差达到2.0%。精度100%;重申一个事实,即如果一家公司被确定为破产候选公司,它们几乎肯定会破产。虽然95.2%的召回率表明,约有5%的公司在遇到财务困境时会通过雷达监视,而仅依靠该系统进行决策的贷款人员会在大约5%的时间内出错,这对于银行或金融机构来说通常仍然太高。表1:韩国破产数据集上各种机器学习方法与不同降维技术相结合时的质量控制准确度决策再调用F1得分逻辑回归98.0%100.0%95.2%97.6%K-D树98.0%100.0%95.2%97.6%SVM98.0%100.0%95.2%95.6%DecisionTree96.0%100.0%90.5%95.0%AdaBoost96.0%100.0%90.5%95.0%ANN98.0%100.0%95.2%97.6%GP98.0%100.0%95.2%97.6%LDALogistic98.0%100.0%95.2%97.6%5章:结果与分析Jacky C.K。

45
nandehutu2022 在职认证  发表于 2022-6-6 21:31:26
周-2018年2月41回归K-D树98.0%100.0%95.2%97.6%SVM98.0%100.0%95.2%97.6%Decision树98.0%100.0%95.2%97.6%AdaBoost98.0%100.0%95.2%97.6%ANN98.0%100.0%95.2%97.6%GP98.0%100.0%95.2%97.6%ISOMAPLogistic回归96.0%95.2%95.2%95.2%K-D树98.0%100.0%95.2%97.6%SVM98.0%100.0%95.2%97.6%决策Tree98.0%100.0%95.2%97.6%AdaBoost98.0%100.0%95.2%97.6%ANN96.0%95.2%95.2%GP98.0%100.0%95.2%97.6%Kernel PCALogistic回归96.0%100.0%90.5%95.0%K-D Tree98.0%100.0%95.2%97.6%SVM98.0%100.0%95.2%97.6%Decision Tree96.0%100.0%90.5%95.0%AdaBoost96.0%100.0%90.5%95.0%ANN96.0%100.0%90.5%95.0%GP98.0%100.0%95.2%97.6%使用机器学习分析金融信用风险42 Jacky C.K.Chow-2018年2月不同的分类器有不同的优势。为了进一步分析韩国市场的破产情况,我们使用了决策树模型。如第2.2.4节所述,使用决策树的好处之一是它在追溯决策过程时提供的透明度。以ISOMAP投影的2D特征为例,训练完成后,可以可视化决策树,如图17所示。从顶部的第一个节点开始,使用200个样本和0.49的基尼指数,如果投影特征的第二个分量小于-0.33,则遍历到左分支,否则遍历到右分支。该过程重复进行,直到某个节点的基尼指数为零,其中每个节点将被分类为破产或未破产。

46
可人4 在职认证  发表于 2022-6-6 21:31:29
可以想象,通常特征越多,决策边界越复杂,树结构就越大,因此人类分析师就越难解释结果。图17:二维空间中ISOMAP变换特征的训练决策树虽然使用降维通常可以降低问题的复杂性,但由于第5章:结果和分析Jacky C.K.Chow-2018年2月43日的投影,特征空间的物理意义也部分丢失,例如,第一部分和第二部分对财务专家没有太大意义。一种可能的解决方案是研究投影函数,并将树结构与最初测量的特征间接联系起来。例如,当使用PCA时,可以从特征向量中提取有助于投影的每个特征的权重。对于这个特定的韩国数据集,表2中给出了第一个和第二个分量的权重。可以看出,第一部分主要由公司的财务灵活性、信誉和竞争力决定,第二部分主要表示公司的行业风险、管理风险和运营风险。表2:预计二维主成分的原始六维定性特征权重工业风险管理风险财务灵活性信贷竞争力运营风险第一成分0.2310.3200.4660.4720.5850.250第二成分-0.582-0.3070.2680.2840.214-0.607或者,决策树分类器可应用于原始六维数据集,以直接了解每个定性指标与公司发生财务困境的可能性之间的关系(图18)。

47
何人来此 在职认证  发表于 2022-6-6 21:31:31
在这种特定情况下,生成的树结构相对简单(它比图17中的树更深,但宽度更小)。从图18可以看出,六个定性指标中只有四个对这个特定的培训集重要。更具体地说,它们的重要性顺序是竞争力、信誉、财务灵活性和行业风险。详细浏览这棵决策树,可以对这200家韩国制造和服务公司说以下几点:1。公司的竞争力对破产的影响最大。如果该公司的竞争得分为负值,则无论其在其他属性上的得分如何,该公司都可能破产。2、如果该公司具有一般或较高的竞争水平和良好的信誉,则该公司不太可能面临破产。使用机器学习分析金融信贷风险44 Jacky C.K.Chow-2018年2月3日。但如果这家有竞争力的公司信誉不佳,那么它最好在财务上灵活一些,或者在行业风险较低的行业中生存。图18:原始特征的训练决策树与原始作者的结果相比(Kim&Han,2003),本文提出的解决方案显示出更好的分类精度。Kim和Han(2003)报告,他们的遗传算法、归纳学习和神经网络的总体二元分类准确率分别为94.0%、89.7%和90.3%。在本文中,使用各种分类模型可以获得更好的分类精度(即98%)。这一改进可归因于较小的样本量(参考原始论文)和使用降维技术。

48
mingdashike22 在职认证  发表于 2022-6-6 21:31:35
在Kim和Han(2003)的文章中,他们的所有数据挖掘技术都应用于原始特征空间,如本文所示,原始特征空间包含用于破产预测的噪声和无关信息。因此,消除数据集中信息量较小的一些维度以降低问题的复杂性是合理的。第5章:结果与分析Jacky C.K.Chow-2018年2月45 5.2数据集2:波兰企业破产5.2.1数据可视化,采用与5.1.1相同的方法,首先将定量财务因素缩放至-1.0和+1.0之间。与数据集1不同,数据集2是不完整的,因为某些公司缺少属性。与其简单地从数据集中完全删除这些条目,不如将其缺失的值作为中位数从其余公司中估算出来。这样,样本数量保持不变,插补特征对决策边界的影响很小(Jereza等人,2010)。此外,标记为“未破产”的数据显著增多(该数据库中未破产公司与破产公司的比率为13:1)。这种类别不平衡会对某些分类算法产生重大影响。因此,标记为“破产”的特征使用合成少数过度采样技术进行上采样(Chawla、Bowyer、Hall和Kegelmeyer,2002)。具有定量财务指标的数据集2比数据集1更复杂,使用相同的降维方法将特征映射到三维空间,结果表明破产公司和非破产公司在低维空间中非常相似(图19)。

49
大多数88 在职认证  发表于 2022-6-6 21:31:38
因此,不可能对分类边界进行目视评估,评估必须基于其他数值技术。使用机器学习对金融信贷风险进行分析46 Jacky C.K.Chow-2018年2月图19:波兰破产数据集的三维可视化为了选择适当数量的组件而不可视化点分布,PCA组件可以按信息内容的降序绘制,如图20所示。从视觉上看,50%的方差可以通过前几部分进行汇总。主成分31至64加在一起仅占数据方差的1%,并被假定为高度受噪声污染。因此,各种分类算法仅适用于30个最大的主成分,这些主成分应捕获99%的信息,同时将问题的维数减少一半以上。图20:主成分的累积方差百分比第5部分:结果与分析Jacky C.K.Chow-2018年2月47 5.2.2二元分类使用10倍交叉验证对训练数据调整所有超参数(例如,对于K-D树,在这种情况下,发现最佳邻域大小为6)。这允许使用数据本身以客观的方式选择“最佳”模型。图21显示了训练数据的10倍ROC曲线和测试数据的混淆矩阵。在各个褶皱之间,ANN和GP的ROC曲线差异最大。K-D树和决策树的ROC曲线形状最为理想。

50
mingdashike22 在职认证  发表于 2022-6-6 21:31:41
尽管他们的ROC曲线看起来很相似,但他们的混淆矩阵却截然不同;K-D树能够检测出破产公司,准确率为57.0%,而经过训练的决策树准确率仅为11.6%。逻辑回归K-D树VManalysis of Financial Credit Risk Using Machine Learning 48 Jacky C.K.Chow-2018年2月决策树EADABOSTANGP图21:在波兰破产数据集上应用不同机器学习方法的ROC曲线和混淆矩阵不同机器学习模型的质量控制措施总结在表3中。除了准确度、精密度、召回率和F1得分外,还报告了ROC曲线下的平均面积(AUC),以便与Zieba等人(2016)的原始文章的结果进行比较。Zieba等人(2016)也测试了一些分类器,如logistic回归和SVM,总体而言,本文获得的平均AUC具有可比性。例如,本文报告的logistic回归AUC为79.9%,而原始文章中的AUC为63.2%。考虑到分类器与第5章:结果和分析Jacky C.K.Chow-2018年2月49相同,性能的改善可能归因于数据缩放、降维和模型选择步骤。本论文中的AUC分数不仅与原始文章相似,最高AUC为96.9%,超过了Zieba等人(2016)报告的所有方法。但应该注意的是,仅AUC不足以描述分类器的实际性能。表3中的许多分类器具有较高的AUC(即大于90%),但它们的准确度、精密度、召回率和F1分数可能存在显著差异。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-9 19:29