楼主: kedemingshi
2306 67

[量化金融] 基于机器学习技术的CDS速率构造方法 [推广有奖]

51
kedemingshi 在职认证  发表于 2022-5-31 19:53:20
我们发现,这些比率与K没有变化,K只是用预先指定的K来评估分级性能,K=10是一个合理的选择。如前所述,在机器学习的某些领域,如图像识别,在进入分类阶段之前,通常首先执行某种特征提取程序,如主成分分析(PCA)。这通常是为了减少特征变量空间的维数。对我们来说,这个维度的大小(最多16个)并不是什么大问题,但我们的一些或所有个体特征变量之间是否存在强相关性可能是个大问题。对于经典回归,这在回归中的多重共线性下得到了很好的研究。对于金融和经济应用而言,这是一个重要的问题,计量经济学传统上已经认识到这一点:金融变量通常具有强烈的相关性,尤其是具有期限结构的变量,例如我们用于特征向量的变量:历史和隐含波动率、违约概率。从横截面来看,这些也可能是强相关的,例如,某一到期日的隐含波动率和相应的历史波动率。

52
何人来此 在职认证  发表于 2022-5-31 19:53:23
图15显示了16个特征变量的成对相关性的经验分布,并表明我们的数据集中存在显著的相关性。基于这一观察结果,我们通过将原始特征变量替换为我们数据集的初步主成分分析或主成分分析得出的特征变量,检查了八个分类家族中六个的特征变量之间的相关性的影响。与FS1的原始特征变量不同,我们将它们相对于主要组件的坐标作为分类输入(相当于在R中执行正交变换),让我们使用的PC数量从1到16不等。最后,通过比较PCA空间中计算的每个分类性能与原始FS1计算的分类性能,我们对基于FS1(特征变量的全向量)的分类进行了类似比较。其思想是,PCs是正交的,因此不相关,而FS1的分量则不相关。如果两者的分类结果相似,则表明或至少是一个有力的迹象,即多重共线性不是问题。图11和表5总结了结果:1。如图11所示,正如预期的那样,随着更多的主成分用于分类,分类的准确率增加,当使用所有16个成分时达到最大值。它还表明,除了来自DAfamilies的分类人员外,这一表现在PC5和PC7之间大致上是“偏离”的。相比之下,两个DA系列的一些成员需要更多的PC来接近其最大准确率,尤其是QDA对角线COV或LDA对角线COV。根据表4,QDA FullCov的情况与非DA分类更为相似。

53
何人来此 在职认证  发表于 2022-5-31 19:53:27
在QDA对角线COV和LDA对角线COV算法中,另一个残酷的对角线协方差矩阵假设当然已经忽略了数据集中存在的任何相关信息,这可能解释了这种异常行为。2、有趣的是,第一个主成分(PC)已经解释了98%的方差,前两个主成分的解释率为100%,精度在两个小数点内。尽管如此,分类准确率至少需要5个百分点才能稳定下来,而额外的成分只会对差异起到非常小的作用。”方差解释“不是很好的分类精度预测因子,使用PC来减少特征向量大小时应小心。相反,PC应作为信号相关性影响的诊断测试。通过计算各自经验准确率之间的差异(通常通过10倍交叉验证获得),我们对使用特征向量FS1的直接分类和使用16个FS1的分类进行了相似的比较。结果见表5标题为“A(PC)”的最后一列-A(FS1)“”。我们看到,除了NB以及LDA和QDA具有对角协方差矩阵外,假设忽略了数据中的相关性。PCA将考虑这种相关性,从而产生不同的分类。(顺便提一下,如果特征变量不相关,例如PCA产生的变量,则对角协方差矩阵的假设变得无关紧要。)3.2分类内绩效比较结果接下来,我们简要总结了分类内绩效结果,并通过附录B.1中的图表进一步详细说明了各个分类的绩效。

54
可人4 在职认证  发表于 2022-5-31 19:53:31
在每个Classifier系列中,在不同的参数化选择和不同的功能选择之间存在着大量的性能差异。2.关于判别分析(DA)系列,图12比较了线性和二次两类DA分类的性能,以及协方差矩阵的两种不同的所谓规则化选择(Hastie et al.,2009):完整与对角线,六种不同的特征变量选择(或学习上下文,也被称为学习上下文)中的每一种。图11:分级性能和PCA总结(K=10,单位:Kfold,带宽b*= 0.2,树尺寸z*= 20,k*= 9对于kNN,学习周期c=30,所有与分类汇总相对应)表5:分类性能,%PCs解释的方差(K=10,Kfold,带宽b*= 0.2,树尺寸z*= 20,k*= 9对于kNN,学习周期c=30)图12显示,在所有特征选择中,QDA FullCov和LDA的准确率明显高于QDA DiagonalCov和LDA DiagonalCov的准确率,而其测试误差的标准偏差或小得多,或近似于其对角线对应项的标准偏差:参见表6。因此,使用全协方差矩阵可以在不引入过拟合的情况下获得更好的精度。3、图14显示了不同核函数和不同特征选择的Naive Bayes分类器作为带宽b函数的平均或预期准确率。带b的Naive Bayes≥ 0.3和特征选择FS6以及使用normal或Epanetchikov核的性能低于本文研究的所有其他分类器,这部分推动了我们在第2.11.3小节中的特征提取研究。表7列出了我们研究的18个NaiveBayes分类器的测试误差的平均值和标准偏差,作为带宽b的函数。

55
kedemingshi 在职认证  发表于 2022-5-31 19:53:36
由于对于带宽b的最佳选择没有封闭形式的解*, 我们根据K-fold交叉验证得出的性能估计,根据经验确定后者。图14说明了如何:发现b=0.2时的平均准确率(所有分类的平均准确率)最大,并且该图显示,“norm6”的性能在b=0.2时开始“下降”,而其他分类的性能要么下降,要么也开始下降。最后,当b=0.1时,超过一半的分类者的表现比b=0.2.4时差。图16和表8显示了k和不同阻力度量的不同选择的kNN的准确率,同样针对六个特征选择中的每一个。对于为kNN选择最佳k,同样没有解析解。图16表明,k越小,我们可以达到的准确率就越好。然而,小k意味着最近邻居的集合可能很小,我们将在少数对手中占据多数,这可能会使结果对数据中的噪声敏感。Jirina和Jirina(2008)以及Hassanat et al.(2014)建议,根据经验法则,k应选择接近√n其中n是训练样本数。在我们的研究中,n=100,对应于雷曼破产前的100天。此外,我们希望k是奇数,以避免多数规则中的关系。结果,我们选择了k*= 通常,表8列出了测试误差的平均u和方差σ。图17和表9显示了六个逻辑回归分类的K倍分层交叉验证中,经验准确率与层数的依赖关系,表明它们非常稳定。我们注意到,尽管LR在银行业很受欢迎(creditscoring),但其准确性可能会非常不稳定,这取决于特征变量的选择。6.

56
能者818 在职认证  发表于 2022-5-31 19:53:39
图18和表10显示了决策树在不同纯度度量和不同树大小选择(最大分裂数)方面的性能。Breiman等人(1984)表示,如果结果决策树变得过于复杂,它将失去其可解释性,并且往往变得不稳定。在我们的实证研究中,我们确定*= 20作为最佳树大小,因为对于较大的z,性能变得相对灵活,而树的复杂性显著增加。7.图19显示了支持向量机分类器在不同特征选择中对不同核函数选择的性能。表11和表12分别列出了通过K倍交叉验证确定的经验准确度和误分类率及其标准偏差,并作为K的函数。它们再次证明了我们选择K=10是合理的。8、关于神经网络(NN)分类器,例如参考文献[13]所强调的,没有简单的方法来选择隐藏层的隐藏单元数。我们从经验上发现,对于我们的问题,此类单元的数量对类内性能变化的影响有限:见图20。请注意,此图中的准确率都相当高,介于93%和接近100%之间。在报告交叉分类比较结果时,我们使用了10个单位的隐藏层大小。与LayerSize相反,传递函数的选择对性能的影响更大,我们特别发现,在我们调查的所有类别中,切线Sigmoid函数的性能最好。表13和14分别列出了图20的准确率数值以及测试误差的平均值和标准偏差σ。9

57
能者818 在职认证  发表于 2022-5-31 19:53:42
图21和表15检查了袋装树算法的性能变化,通常情况下,对于每个特征选择,从s=10开始的学习周期数s的函数。他们表明,经验精度和误分类率随s变化很小,并且在15到20之间的有限周期数足以实现可得的结果。在我们的研究中,套袋树是第三个表现最好的树;根据黑斯蒂等人的说法。(2009),Bagged Tree算法作为决策树的替代算法,更稳定,在样本外测试中表现更好。我们在图8、图21和表15中的结果证实了这一点。4结论4.1结论在本文中,我们基于公开的金融市场数据,利用机器学习(ML)技术研究了CDS代理构建方法,旨在解决CDS利率的流动性不足问题。机器学习已经广泛应用于制药和医学、机器人、海洋学、图像识别和许多其他领域。我们的研究是第一次将ML应用于重要的金融实践问题的系统研究之一。根据我们的结果,我们可以得出以下结论。1、在对目前机器学习中最流行的八个分类家族中的156个分类家族进行研究后,我们认为,经过精心选择的分类算法,以及适当的参数化选择和特征变量选择,可以用来构建可靠的CDSProxies,用以解决导言中所述CDS利率的流动性不足问题。即使基于压力财务数据(本文使用了雷曼破产前100天的数据),这种代理结构也可以在交叉验证中实现非常高的准确率。

58
何人来此 在职认证  发表于 2022-5-31 19:53:44
我们排名前三位的分类家族是神经网络、支持向量机和Bagged树,这一结果与Kong等人(1995)和Delgado和Amorim(2014)报告的使用非金融数据的机器学习分类结果一致。2、与Kong et al.(1995)和Delgado and Amorim(2014)等现有研究相比,我们专门针对金融市场数据集进行比较,并针对一个特定问题,即CDS代理构建问题。这确保了性能比较是相似的。据所知,我们的分类比较完全基于金融市场数据。尽管如此,我们对表现最佳的分类系列的总体排名结果与该领域现有文献的排名一致,但有一些例外,尤其是Naive Bayes分类。这可以用财务数据的特殊特征来解释,尤其是其内在的高度相关性。3、我们认为,我们的研究是第一个仅使用高度相关数据的分类研究之一,并且我们调查了回归中的多重共线性问题(在很大程度上),因为它可能会影响分类。使用主成分分析(PCA)作为特征提取技术,我们表明,在我们的案例中,相关性对分类的影响不大;尤其是,它们不适用于我们的三个性能最好的Classifier系列。我们建议,在处理潜在的强相关性特征时,最好使用未转换或“原始”特征变量进行PCA空间分类,以进行验证和作为诊断工具。4.

59
mingdashike22 在职认证  发表于 2022-5-31 19:53:48
我们认为,基于ML的CDS代理方法优于现有的CDS代理方法,如曲线映射或横截面回归:通过构造,该方法满足监管机构规定的所有三个标准,而不仅仅是前两个标准(参见引言)。此外,与关于曲线映射或横截面回归的公开文献相比,我们已经对我们研究的每种ML算法进行了大量的样本外交叉验证测试,从而为比较这些算法和选择性能最好的算法提供了客观依据。不用说,应该用其他数据集重复这一练习,以确保我们的结果的可重复性,但他们与现有绩效研究的总体一致性可以被视为一个令人鼓舞的迹象。对每种ML算法的基本理解对于指导参数选择和解释实证结果都很重要。为此,本文介绍了我们使用的八个分类系列中的每一个,并通过一个简单的运行示例进行了说明,从而为实际问题的特定背景提供了必要的理论基础。本文研究了可调参数的依赖性,如k-最近邻中的最近邻数、Naive Bayes中的带宽、决策树算法中的树大小参数或神经网络的隐层大小。我们还研究了在K褶皱分层交叉验证中改变地层数量的影响。在缺乏理论结果的情况下,这些参数的调整必须在交叉验证的基础上进行,同时考虑现有文献的建议。7.

60
大多数88 在职认证  发表于 2022-5-31 19:53:51
我们的实证研究发现,尽管逻辑回归在企业银行界很受欢迎,但它并不属于顶级分类家族,对于仅使用少数特征的分类而言,它可能尤其糟糕。Naive Bayes的表现也相对较差,与基于非财务数据的分类结果不符。这一点的原因应在Naive Bayes的阶级条件独立性假设中找到,该假设与金融数据中通常存在的强相关性相矛盾。类似的注释适用于DA算法的版本,该算法将自身限制为仅使用对角协方差矩阵,并且可以将其视为Naive Bayes的子类。4.2未来方向交易对手信用风险和机器学习都是活跃的研究领域,前者受到动态业务和监管环境的驱动,后者受到令人兴奋的技术进步的驱动。我们想为未来的研究提供两个潜在的方向。首先,我们的研究基于雷曼破产前100天的交易对手和特征变量数据,仅涉及金融部门的美国投资级公司:参见附录A。我们的动机是评估拟议的CDS代理方法在“压力”经济环境中的有效性,因此原则上是“噪音”数据。正如本文所示,所提出的方法至少在一个这样的环境中效果良好,但在其他时期应该重复这一练习,以确保我们的结论的可重复性,也因为在实践中,金融机构需要覆盖“压力”和“平静”经济环境中的所有部门和所有地区。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-2 12:42