楼主: mingdashike22
2488 82

[量化金融] 走向稳健的预警模型:赛马、团队和模型 [推广有奖]

51
kedemingshi 在职认证  发表于 2022-5-7 08:51:17
然而,这需要更结构化的评估(如第4.4节所述)。表7:递归实时估计的赛马。秩次法精确查全率精确查全率精确查全率FP率FN率Ua(μ)Ur(μ)AUC1 KNN 78 4 247 13 0.95 0.86 0.95 0.98 0.95 0.02 0.14 0.11 78%0.9762 QDA 44 5 230 12 0.90 0.79 0.95 0.98 0.94 0.02 0.21 0.12 76%0.9813神经网络79 13 238 12 0.86 0.87 0.95 0.95 0.93 0.05 0.13 0.11 76%0.9624支持向量机76 3 248 15 0.96 0.84 0.94 0.0.94 0.0.01 0.01 0.01 0.01 0.11%0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.88 0.63 0.66 0.370.24 0.04 28%0.85111分类树42 24 227 49 0.64 0.46 0.82 0.90 0.79 0.10 0.54 0.02 12%0.6161612信号提取25 85 166 66 0.23 0.28 0.72 0.66 0.56 0.34 0.73-0.06-39%。该表还在列中报告了评估模型总体性能的以下指标:TP=真阳性,FP=假阳性,TN=真阴性,FN=假阴性,精确阳性=TP/(TP+FP),召回阳性=TP/(TP+FN),精确阴性=TN/(TN+FN),召回阴性=TN/(TN+FP),准确度=(TP+TN)/(TP+TN+FP+FN),绝对和相对有效性Ua和Ur(见公式1-3),AUC=ROC曲线下的面积(TP率与FP率)。有关这些措施的更多详细信息,请参见第2.2节。TPFPTNFN4呈阳性。3.

52
mingdashike22 在职认证  发表于 2022-5-7 08:51:20
模型的聚合在使用单一技术或多种技术的同时,下一步显然是将它们聚合为一个模型输出。这是通过四种方法完成的,如第3节所述。2.前两种方法结合了各个方法的信号,方法是(i)根据样本内性能,仅使用样本外分析的最佳方法,以及(ii)多数票,允许同时使用所有模型信号。第三种和第四种方法通过推导表6和表7中所有方法概率的算术和加权平均值,依赖于每种方法的估计概率。加权模型输出的一种自然方式是使用它们在样本中的性能,在我们的例子中是相对有用的。这允许对那些性能更好的方法给予更大的权重,并产生与单个方法类似的模型输出,这些方法可以通过交叉验证和递归练习进行测试。表8给出了交叉验证和草书练习的四种不同聚合方法的结果。同时使用许多模型通常会产生良好的结果。虽然交叉验证模型排名前五位,但在递归估计中,四分之三的聚合方法排名前两位。在递归练习中表现更好的一个潜在解释是,这是一个更严格的测试,交叉验证的练习可能会因褶皱之间的过度相关性而产生偏差。因此,在消除采样中的潜在依赖性时,集成方法的性能优于单独的机器学习方法。此外,我们还减少了所选方法的不确定性,因为样本(或先验)绩效并不是未来绩效无可争议的指标。

53
可人4 在职认证  发表于 2022-5-7 08:51:23
也就是说,除了有可能说服决策者(他们可能对一种方法比其他方法更感兴趣)之外,聚合还解决了基于性能选择一种方法的问题。虽然样本内表现可能表明一种方法优于其他方法,但它可能仍然与抽样误差或样本样本的过度匹配有关,因此在样本外数据上表现不佳。这突出了使用聚合的价值,而不是选择单一的方法,不管如何。我们再次在递归练习中用所谓的“未知事件”进行实验。附录中的表A.4显示了在递归练习中删除未知事件时,与表8中的单个方法类似的结果。综合数据显示,平均URC从77%下降到67%,而AUC的平均值相似。同样,即使使用更严格的测试,也无法观察到过度匹配。如表8所示,在大多数情况下,其他聚合方法的性能并不比简单算术平均值的结果好。这可能与以下事实有关:模型多样性已被证明可以改善总体水平的性能(例如,昆切瓦和惠特克[58])。例如,更多的随机方法(例如,随机森林)已被证明比更深思熟虑的技术(例如,Ho[42])产生更强大的聚合,在这种情况下,聚合模型不仅使用重采样的观测值,还使用重采样的变量。由于我们的聚合更好的方法可能会给出类似的模型输出,它们可能会导致聚合中的多样性程度降低,但也值得注意的是,我们接近完美的性能,在这一阶段,性能改进显然变得更具挑战性。

54
kedemingshi 在职认证  发表于 2022-5-7 08:51:27
集成学习的进一步方法应该是未来工作的主题,因为通过各种方法,如变量和观测重采样,可以很容易地将更多的多样性引入不同的学习算法。表8:交叉验证和递归估计的汇总结果。秩法估计精度召回精度再校准准确率FN rateUa(μ)Ur(μ)AUC5非加权交叉val.92 41 1018 1 0.69 0.99 1.00 0.96 0.96 0.04 0.01 0.06 88%0.9965加权交叉val.86 32 1027 0.73 0.93 0.99 0.97 0.97 0.03 0.08 0.05 84%0.9923最佳交叉val.89 15 1044 0.86 0.96 1.00 0.99 0.99 0.98 0.01 0.06%0.06%交叉投票10-89 0.890.99 0.99 0.98 0.01 0.11 0.06 87%0.9422非加权递推80 10 2411 0.89 0.88 0.96 0.96 0.94 0.04 0.12 0.12 79%0.9611加权递推84 31 220 7 0.73 0.92 0.97 0.88 0.89 0.12 0.08 0.11 77%0.9451最佳递推80 5 246 11 0.94 0.88 0.96 0.98 0.95 0.02 0.12 0.12 81%0.9275投票递推77 10 241 14 0.89 0.85 0.95 0.90.90%0.90 0.90.90.90.90%0.90表报告了给定最佳阈值的集合的交叉验证和递归样本外性能,偏好为0.8,预测范围为5-12个季度。第一列对应其相对于个别方法的排名(表4和表5)。该表还在列中报告了评估模型总体性能的以下指标:TP=真阳性,FP=假阳性,TN=真阴性,FN=假阴性,精确阳性=TP/(TP+FP),召回阳性=TP/(TP+FN),精确阴性=TN/(TN+FN),召回阴性=TN/(TN+FP),准确度=(TP+TN)/(TP+TN+FP+FN),绝对和相对有效性Ua和Ur(见公式1-3),AUC=ROC曲线下的面积(TP率与FP率)。

55
可人4 在职认证  发表于 2022-5-7 08:51:31
有关这些措施的更多详细信息,请参见第2.2节。TPFPTNFN4呈阳性。4.模型不确定性我们实证分析的最后一步涉及计算模型不确定性,尤其是与模型性能和输出相关的不确定性。模型性能不确定性。人们可能会质疑上述赛马是由于非确定性方法中的抽样误差和随机性而产生的潜在偏差的结果。这一点我们应该进行统计学测试,以确保任何等级推断都是有效的。因此,我们进行了与表6、7和8类似的练习,但重新取样以考虑模型的不确定性。对于交叉验证练习,我们抽取了10倍的500个样本,并报告了平均结果,包括三个关键性能指标的SEs。因此,表9给出了交叉验证估计的稳健赛马。我们可以观察到,KNN、SVM、ANN和ELM仍然是性能最好的方法。其次是聚合,然后采用与表6相同的方法(性能降序):随机森林、QDA、分类树、logit、LASSO、LDA和信号提取。除了有类似的结果,在续集中将事件分配给参考季度的一个关键论点是,由于时间序列较短,我们需要使用一个更晚的递归开始日期。除了简单的排名外,我们还使用有用性来评估所有其他方法的统计意义。所有方法的交叉比较矩阵见附录中的表A.5。表9中的第二列通过显示第一个较低等级的方法总结了结果,该方法在统计上与每种方法有显著差异。这表明modelperformance在同类最佳和最差的方法中都有集群。结果表明,在排名第6位之前的所有方法都优于排名第8位的非加权总体。

56
大多数88 在职认证  发表于 2022-5-7 08:51:35
同样,排名11以上的所有方法似乎都属于一个表现类似的群体。排名在第11位以下的方法在性能上存在较大的双边差异,尤其是信号提取,这比所有其他方法都要差得多。还值得注意的是,真正的集成方法(即聚合,不包括最佳方法)减少了模型性能的变化,这是因为模型平均降低了极端结果的影响。这显然是在为决策制定稳健的早期预警模型时需要考虑的关键问题。作为进一步的稳健性检查,我们还提供了附录图a.2中所有方法和集合的交叉验证样本外ROC曲线图。然而,我们更愿意关注基于有用性的排名,因为它们关注AUC的相关点(u=0.8),而不是涵盖决策者的所有潜在偏好。表9:交叉验证估计的稳健赛马。RankMethod精密度召回精密度再校准准确率FN比率UA(μ)S.E.Ur(μ)S.E。

57
mingdashike22 在职认证  发表于 2022-5-7 08:51:39
政府部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门0.023 0.991 0.0055 8加权89 30 10290.0 0 0.0 0 0.0 0 0.0 0 0.0 0 0.0 0 0.0 0 0.0 0 0.0 0 0 0.0 0 0.0 0 0.0 0 0 0.0 0 0 0.0 0 0.0 0 0.0 0 0 0.0 0 0 0.0 0 0.0 0 0.0 0 0.0 0 0.0 0 0 0.0 0 0 0 0.0 0 0 0 0.0 0 0 0 0.0 0.0 0 0 0.0.0 0 0 0.0 0 0 0 0.0 0 0 0 0 0 0.0 0.15 0.0 0 0 0 0 0 0 0.0 0 0 0 0 0.15 0 0 0 0 0 0 0.15 0.0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.15 0 0 0 0 0 0 0 0 0 0 0.0.0 0 0 0 0 0 0 0 0 0 0.15 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 81201039120.810.880.99 0.98 0.97 0.02 0.13 0.05 0.003 82%0.042 0.996 0.00110 11 QDA 78 18 1041 15 0.82 0.84 0.99 0.98 0.97 0.02 0.16 0.05 0.002 79%0.024 0.984 0.00111 13分类。10.0 0.0 0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0 0.0.0.0.0 0.0.0 0.0.0 0.0.0 0.0.0 0.0 0.0.0.0 0 0.0 0.0.0 0.0 0.0.0 0 0.0 0.0.0.0 0 0 0 0 0 0 0.0 0 0 0 0.0.0 0 0.0 0.0 0 0 0.0.0.0 0 0.0.0.0 0 0 0.9 0 0 0 0 0 0 0 0.9 0 0.0.017 0.934 0.00115 16 LDA 74 120939 19 0.38 0.80 0.98 0.89 0.88 0.11 0.20 0.03 0.001 48%0.022 0.927 0.00216-信号提取。15 46 1013 78 0.25 0.16 0.93 0.96 0.89 0.04 0.84 0.00 0.001 4%0.014 0.712 0.000负面注释:该表报告了所有方法在500次重复交叉验证中的样本外性能,最佳阈值为0.8,预测范围为5-12个季度。该表根据相对有用性对方法进行排序,第二列提供了不同方法之间的显著差异。

58
kedemingshi 在职认证  发表于 2022-5-7 08:51:42
该表还在列中报告了评估模型总体性能的以下指标:TP=真阳性,FP=假阳性,TN=真阴性,FN=假阴性,精确阳性=TP/(TP+FP),召回阳性=TP/(TP+FN),精确阴性=TN/(TN+FN),召回阴性=TN/(TN+FP),准确度=(TP+TN)/(TP+TN+FP+FN),绝对和相对有用性Ua和Ur(见公式1-3),AUC=ROC曲线下的面积(TP率到FP率),以及S.E.=标准误差。有关这些措施的更多详细信息,请参见第2.2节。Sig>RANKTPTNFPOSITIVESTO再次执行更严格的递归实时评估,但作为一项强有力的练习,我们将递归赛马与双重重采样相结合。在表10中,我们为每个季度抽取500个样本内数据的引导样本,并再次报告样本外结果的平均值,包括其SE。与表7中单一估计的结果相比,排名显示出轻微的差异。虽然大多数机器学习方法仍优于更传统的方法,但总体上差异较小。特别是,在各种方法中,人工神经网络表现出最好的实用性,而对应的支持向量机的性能比单一估计差。最值得注意的是,罗吉特套索和分类树显示排名正增长。同样,根据附录表A.6中交叉比较矩阵的统计意义,我们在表10的第二列中报告了显著差异。与交叉验证相比,双自举引入的样本数据变化对性能变化有显著影响,而Henceal对等级差异也有显著影响。表10中排名前三位的方法是聚合方法,仅这些方法在统计上明显优于信号提取以外的任何其他方法。

59
可人4 在职认证  发表于 2022-5-7 08:51:46
Nextis是一大类中间方法,其中信号提取是同类方法中最差的。此外,我们还提供了所有方法的递归样本外ROC曲线图,以及附录图A.3中的汇总。与此相一致,由于没有单一的性能度量,我们还根据两个练习中的方法的AUC对其进行排序,计算它们在练习中的变化,并进行均衡测试。对于交叉验证和递归练习,这些表格显示的结果与基于有用性的排名一致,如附录A.7和A.8所示。对于交叉验证评估,一个关键的区别是,AUC排名显示随机森林和最佳和非加权集合的相对性能更好,而KNN和QDA在递归练习中改善了它们的排列。一个实时的赛马估计表。英语常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用1.0424 160.0 0 0.0 0 0.0 0 0.0 0 0.0 0 0.0 0 0.0 0 0.0 0.0 0.0 0.895 0.0 0.0 0.36 0.0 0.0.863 0.3 3 3 3 0.0.3 3 3 3.0.0.0.0.0.0.3 3 3 3 3 0.0.0.0.0.3 3 3 3 3 3 3 0.0.863 3 0.0.0.0.0.3 3 3 3 3 3 0.0.0.0.0.5 5 5 5 5 5 5 5 5 5 5 5 5.5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 KNN香港香港香港香港政府的政府工作工作人员有5454549 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 24242424242424242424249 9 9 9 9 9 9 9 9 9 9 9 9 9 9 0.042 0.01 29%0.1 0.740 0.0348 16罗吉特套索68 100 151 23 0.408 0.75 0.869 0.603 0.642 0.397 0.252 0.04 0.02 24%0.13 0.764 0.0599 16分类。

60
大多数88 在职认证  发表于 2022-5-7 08:51:50
0.0 0 0.0 0 0.0 0 0 0.0 0 0 0.0 0 0.0 0 0.0 0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0 0.0 0 0.0 0 0 0.0 0 0 0.0 0 0 0.0 0 0.0 0 0 0.0 0 0 0 0.0 0 0 0.0 0 0 0 0 0 0 0.0 0 0 0 0 0.0 0.0 0 0.0 0.0 0 0 0.0 0 0.0 0 0 0 0 0.0 0 0.0 0 0 0.0 0 0 0.0 0 0.0 0 0 0.0 0 0 0 0.0 0 0 0 0 0 0.0.0 0 0 0 0 0 0 0.839 0.0 0 0 0 0 0 0 0 0 0.0 0 0 0 0 0 0 0 0 0.0.0 0 0 0 0 0 0.0 0 0.0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0.02 0.02 14%0.14 0.724 0.04313 16 SVM 5060 191 41 0.471 0.55 0.825 0.762 0.707 0.238 0.446 0.02 0.03 12%0.18 0.725 0.08214 16 LDA 55 80 171 36 0.406 0.6 0.825 0.681 0.659 0.319 0.4010.02 0.02 10%0.14 0.757 0.04215 16朴素贝叶斯39 33 218 52 0.542 0.43。31 85 166 60 0.266 0.34 0.733 0.662 0.575 0.338 0.665-0.04 0.02-30%0.1 0.609 0.028负面注释:该表报告了所有方法的递归样本外性能,其中500个递归生成的引导,在给定偏好为0.8且预测范围为5-12个季度的情况下,具有最佳阈值。该表根据相对有用性对方法进行排序,第二列提供了不同方法之间的显著差异。该表还在列中报告了评估模型总体性能的以下指标:TP=真阳性,FP=假阳性,TN=真阴性,FN=假阴性,精确阳性=TP/(TP+FP),召回阳性=TP/(TP+FN),精确阴性=TN/(TN+FN),召回阴性=TN/(TN+FP),准确度=(TP+TN)/(TP+TN+FP+FN),绝对和相对有用性Ua和Ur(见公式1-3),AUC=ROC曲线下的面积(TP率到FP率),以及S.E.=标准误差。有关这些措施的更多详细信息,请参见第2.2节。Sig>RANKTPTNFPISTIVES模型输出不确定性。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-29 19:34