楼主: kedemingshi
2171 60

[量化金融] 基于机器学习的金融信用风险分析 [推广有奖]

31
何人来此 在职认证  发表于 2022-6-6 21:30:42
如原论文所述,作者提出的遗传算法方法的分类准确率为94%。他们还将其与其他两种数据挖掘技术,即归纳学习和神经网络进行了比较,报告的准确率分别为89.7%和90.3%。相比之下,第二个数据集(表示为数据集2)包含2000-2012年间波兰制造公司64个数量属性的5910个实例,2007-2013年间对一些仍在运营的公司进行了评估(Zieba、Tomczakb和Tomczaka,2016)。其中5500家公司没有宣布破产,其余410家公司在一年后申请破产。大多数数量属性是财务比率和计量经济指标,如大多数现有文献所示。这些属性的完整列表见附录2。分析这两个数据集的方法相似,将在下文中解释。请注意,数据集1和数据集2之间结果质量的差异可归因于不同的地理位置、不同的数据集大小、不同的特征和不同的数据质量等因素。4.1预处理各种输入特征的可能值范围可能会发生很大变化。例如,由于正常化,等式9定义的毛利率将始终小于1(即低于100%),而一些财务指标(如营运资本)理论上可以具有任何实际价值(即负无穷大到正无穷大)。

32
大多数88 在职认证  发表于 2022-6-6 21:30:45
为了使情况进一步复杂化,一些学者建议在预测模型中加入其他特征,如公司治理结构和管理实践(Aziz&Dar,2006),该模型可以具有任意规模。尺度在不同维度上的巨大差异导致了机器学习中的几个问题,例如使用机器学习22 Jacky C.K.Chow-2018年2月对金融信用风险的分析,将其视为数值不稳定和饱和的更高可能性(即某些特征因其规模而占主导地位并掩盖其他一些特征的重要性的情况)。   一种可能的解决方案是对每个特征进行标准化,使所有特征都具有零均值和单位方差。为了实现这一点,可以简单地从每个训练样本中减去平均值,然后除以其标准偏差(方程式10);然而,如果特定特征的方差非常小(即接近于零),那么这种划分可能会有数值问题。另一种方法是简单地将数据缩放到最小值之间() 和最大值() 选择值:例如,0和1(方程式11)。xiixxz公司     DesiredDesiredDixxxZ MinMinMaxMinMaxMinMaxMin4.2由于分类边界和训练数据可以可视化,因此仅具有一个、两个甚至三维特征的降维分类通常是直观的。不幸的是,财务困境信息存在于更高维的特征空间中。换言之,仅分析三个财务比率不足以明确区分成功的公司和未来可能破产的公司。

33
能者818 在职认证  发表于 2022-6-6 21:30:48
在高维特征空间中,如64维波兰破产数据集,人类很难“看到”第4章:方法论Jacky C.K.Chow-2018年2月23日发生的事情。然而,存在许多数学工具来降低数据的维数;这不仅可以潜在地提供感知高维数据的方法,还可以降低问题的复杂性,并可以减少数据中的一些噪声。一种常用的线性降维方法是主成分分析(PCA)。它执行变换/投影,通过减少特征之间的相关性来最大化沿每个正交轴的方差(相当于最小化信息损失)(Hotelling,1933)。这是有意义的,因为尽管许多机器学习问题的维数很高,但有趣的特征通常存在于低维流形中。例如,研究人员建议在现有财务比率的基础上增加宏观经济指标,以预测财务困境。由于公司的经营不可避免地受到宏观环境的影响,其影响的一部分已经反映在公司的财务业绩上;因此,当包含宏观经济特征时,它们提供的信息并非完全独立于其他特征。另一个例子是一些财务比率的相似性。仔细检查波兰破产特征后,可以发现特征4(即流动资产除以流动负债)和特征55(即流动资产减去流动负债)等一些比率密切相关。

34
可人4 在职认证  发表于 2022-6-6 21:30:51
一种简单的降维方案是手动消除一些描述性较差的特征,但这可能会变得单调、主观,并导致“全有或全无”的情况(有时相关特征仍然可以提高分类器的识别能力)。PCA以这样一种方式组合特征,即低维表示仍然保留大部分信息。主成分分析的一个明显缺点是,可能会丢失对特征空间的清晰财务解释;PCA后的每个新特征都是许多特征(如财务比率)的线性投影。从数学上讲,PCA解可以通过不同的方式获得,其中之一是通过特征分解。特征值的大小可以用作信息内容的指示。如果特征值按降序排序,则通常会在前几个特征向量的方向上捕获大部分信息。使用机器学习24 Jacky C.K.Chow(2018年2月)对金融信贷风险进行的最后一次分析的特征值将接近于零,消除这些最后几个预测特征只会导致少量信息损失。PCA是一种无监督的降维方法。然而,如果训练数据包含标签,则在将数据投影到低维子空间时包含该信息可能是有利的。毕竟,除了通过在低维子空间中工作来降低以下机器学习算法的复杂性之外,这种投影的目标之一应该是最大化不同类之间的分离。实现这一点的方法之一是线性判别分析(LDA)。需要类别标签,因此LDA可以被视为PCA的监督版本。

35
能者818 在职认证  发表于 2022-6-6 21:30:55
PCA和LDA都执行线性投影。当投影为非线性时,我们可以沿流形估计测地距离并应用多维缩放。这种方法称为等轴测特征映射(ISOMAP)。ISOMAP是一种无监督的降维方法,可以处理非线性,但需要付出更多的计算努力。另一种方法是将支持向量机中采用的“核技巧”应用到主成分分析中;这就产生了一种称为核PCA的方法。如果选择非线性核(例如径向基核),则投影将是非线性的。4.3从数据学习和模型选择不同的机器学习算法使用提供的数据构建真实世界模型的方法不同。例如,K-D树通过对数据进行分区并形成用于快速查询的二叉树结构来学习数据,而逻辑回归则通过在某个似然函数最大化的优化框架中估计某些权重参数来学习。通常,从数据中学习可以是参数的,也可以是非参数的。参数化方法将学习模型的一些未知参数,并忘记数据(如逻辑回归),而非参数方法(如GP)将必须存储所有训练数据。但即使该方法是非参数的,仍有一些可选的调整第4章:方法Jacky C.K.Chow-2018年2月25日,以获得最佳性能。提出的大多数机器学习方法都有一些超参数,用于改变模型的行为。例如,在具有径向基函数核的GP分类器中,需要设置长度。此参数控制形成决策边界时的邻域大小。

36
nandehutu2022 在职认证  发表于 2022-6-6 21:30:58
一般来说,有三种选择“最佳”模型的方法:(1)由专家手动调整,(2)交叉验证(CV)和(3)贝叶斯统计。在第一种情况下,机器学习或计量经济学专家将更改超参数,重新训练模型,并分析结果,直到获得满意的解决方案。这可能是耗时且主观的。自动方法是使用验证数据集或k-fold方案进行交叉验证。除非有大量的数据集,否则进行k-fold交叉验证通常是更好的选择,因为用于培训的相同数据可以用于模型选择。在k-fold交叉验证中,将训练数据集随机聚类为“k”组。第一组用作验证数据集,其余所有数据用于培训。然后将第2组作为验证数据集重复此过程,并将所有其他数据用于培训。当所有“K”组都有机会扮演验证数据集的角色时,K-fold交叉验证终止。此时,可以使用得分最高的模型或所有k倍的平均值来选择最佳模型。例如,此策略可用于调整SVM中边距的柔软度,即可使用交叉验证设置“C”超参数。图7显示了各种“C”选项的交叉验证分数。对于该数据集,硬边距似乎提供了更高的平均分数,最高CV分数约为C值12。使用机器学习分析金融信贷风险26 Jacky C.K.Chow-2018年2月图7:使用交叉验证分数调整SVM的正则化参数。

37
可人4 在职认证  发表于 2022-6-6 21:31:01
实线表示10倍交叉验证的平均值,虚线表示标准偏差。如果机器学习模型是类似高斯混合模型的概率模型,则可以分配先验分布来寻找最优超参数。这类似于设置最佳模型复杂性以防止过度拟合的正则化器。这种方法的好处之一是模型选择和培训可以同时进行。在数值优化过程中,每次迭代都会更新超参数以改善后验分布。然而,并非所有的机器学习方法都是概率的,如支持向量机和K-D树。因此,为了有一个统一的模型调整框架,在比较不同的模型时将使用交叉验证。4.4准确性评估第2.2节中描述的机器学习模型可能具有非常不同的特征和行为,因此很难判断哪个模型表现更好。因此,一套一致的工具对于评估任何机器学习模型的性能都很重要。机器学习中一些最流行的质量控制措施定义如下。最流行的质量评估方法是准确度评分:给定一个具有基本真相类/标签的样本,将训练模型中的预测标签与第4章:方法论Jacky C.K.Chow-2018年2月27参考标签进行比较(方程式12)。必须小心确保在机器学习管道的任何预处理或培训阶段都不会暴露此测试数据集。此外,测试集应具有与训练集相同的概率分布。

38
大多数88 在职认证  发表于 2022-6-6 21:31:04
这可以通过从原始数据集中随机选择一部分点来实现(例如,70%用于培训,30%用于测试)。这个单一的标量值表明,机器学习算法可以将处于无法恢复的金融危机中的公司标记为破产公司,将财务状况良好的公司标记为未破产公司。   哪里    和   除了准确度得分外,机器学习中用于质量控制的另一组指标是精度、召回率和F1得分。精度是衡量算法能够找到真正正的程度(等式13)。在本论文中,可以将其转化为该模型在实际破产时预测一家公司破产的程度。例如,100%的精确度意味着被标记为破产的公司在未来肯定会经历破产。与精确度密切相关的另一个概念是回忆,定义见等式14。召回率是衡量分类器识别所有真阳性样本的可靠性的一个指标。例如,50%的召回率表明,一半的破产候选公司已被发现,而另一半面临破产的公司则被分类器遗漏。理想情况下,一个好的分类器应该最大限度地提高精度和召回率,不幸的是,在现实中,精度和召回率往往是计量经济学专家在训练模型时必须做出的权衡。如图8所示,随着查全率的增加(x轴),查准率降低(y轴),反之亦然。

39
大多数88 在职认证  发表于 2022-6-6 21:31:07
如果预测的目的是突出所有容易破产的公司,以供财务官进行进一步筛选,则需要以较低的精确度为代价进行高召回,因为财务官可以手动消除误报。然而,如果目标是自动拒绝所有濒临破产的公司的贷款申请,以避免浪费银行的资源进行更彻底的面谈和评估,那么高精度(较低的召回率)可能更合适。F1使用机器学习分析金融信贷风险28 Jacky C.K.Chow-2018年2月的分数定义为精确度和召回率的加权调和平均值。这是一个单独的数字,可以进一步帮助模型比较的决策过程。一个完美的模型的F1得分为100%,这相当于100%的精确度和100%的召回率。因此,一般来说,F1成绩较高是首选。             图8:精度和再校准之间的反比关系显示和选择精度和召回之间权衡的另一种方法是分析接收器工作特性(ROC)曲线(图9)。根据给定边界曲线选择的阈值,可以控制真阳性率和假阳性率。然而,由于它们是相关的,低阈值第4章:方法学Jacky C.K.Chow-2018年2月29日的值不仅可以确保高阳性率,还可以提供高假阳性率。

40
大多数88 在职认证  发表于 2022-6-6 21:31:10
因此,最佳阈值通常位于曲线的左上角,其中真阳性率远高于假阳性率。为了使用这种方法比较不同的模型,可以计算ROC曲线下的面积。区域越接近1,分类器的判别能力越好。图9:以实线显示的分类器ROC曲线和以虚线显示的随机猜测真阳性、假阳性、假阴性和真阴性之间的关系也可以在一个简单的混淆矩阵中进行更全面的总结(图10)。这以一种易于可视化的方式给出了二元分类问题中四种情况的概率。在该图中,真阳性率为96.6%,假阳性率为3.4%,假阴性率为4.8%,真阴性率为95.2%。使用机器学习分析金融信贷风险30 Jacky C.K.Chow-2018年2月图10:在0和1之间归一化的二元分类器的混淆矩阵第5章:结果和分析Jacky C.K.Chow-2018年2月31 5数据集1和数据集2的结果和分析,已采取适当的预处理步骤,以确保所有特征都在负特征和正特征之间缩放。为了获得用于评估各种分类模型准确性的地面真实数据,将数据集分为80%的训练和20%的测试。除最终精度评估阶段外,20%的测试数据从未用于任何机器学习步骤。使用这种方法,可以减少在选择模型参数时过度拟合和引入个人偏差的可能性。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-9 11:15