楼主: mingdashike22
2492 82

[量化金融] 走向稳健的预警模型:赛马、团队和模型 [推广有奖]

41
可人4 在职认证  发表于 2022-5-7 08:50:43
为了解决相对较高方差的可能性,并更好地得出属性(即SEs、CI和CVs)的估计值,通常建议重复交叉验证。这允许平均模型性能,从而对平均性能进行排序,而不是单独的估计,并且更好地导出估计的属性。对于单个方法和聚合,我们使用了500次重复的交叉验证(即S=500)。在递归练习中,由于前几个季度的样本量有限,我们选择使用带替换的重采样来评估模型性能的不确定性。Efron[27]和Efron and Tibshirani[31]介绍了引导方法家族。给定数据x,x。。。,xN,bootstrapping意味着通过使用替换的fromx重新采样来绘制大小为N的随机样本,留下一些数据点,而其他数据点将被复制。因此,平均约63%的训练数据用于每个引导。然而,标准引导过程将数据重新计算为i.i.d.,因此不考虑数据中可能存在的依赖关系。由于早期预警模型通常使用面板数据,因此需要假设横截面和时间序列的依赖关系。根据Kapetanios[52]和Hounkannounonon[45],我们因此利用双自举进行稳健的递归赛马,由两部分组成:横截面重采样和移动块自举。对于尺寸为E×T的面板数据,其中E是实体数,T是周期数,横截面重采样需要绘制完整的时间序列,并替换实体。K¨unsch[55]引入的移动块自举法,在定义的观测值大小B上绘制块,以保持重采样块内的时间依赖性。

42
mingdashike22 在职认证  发表于 2022-5-7 08:50:46
我们的双引导程序以以下方式将两者结合起来:1。从尺寸E×N的可用样本数据中,绘制带有替换的E实体。这构成了伪样本S*.2.从获得的伪样本S*, 从所有项目中随机抽取一个大小为B的区块。3.重复2。通过在末端切割,直到所有组合块的长度大于N。这构成了最终的引导样本**.对于每个季度,我们随机抽取引导样本**使用上述程序从可用的样本数据中提取,重复500次。每个引导都被单独处理,以计算各个方法和聚合的性能。然后对这些结果进行平均,以获得每种方法和聚合的稳健自举分类器的相应结果。模型输出不确定性。为了评估估计概率和最优阈值以及信号的可靠性,我们研究了模型输出不确定性的概念。感兴趣的问题是,估计的概率在统计学上是否显著高于或低于某个最佳阈值。更正式地说,概率pn∈ [0,1]和τ*N∈ [0,1]相等可以表示为H:pn=τ*n、 因此,概率Pn和最佳阈值τ不同的替代假设*nis H:pn6=τ*N

43
kedemingshi 在职认证  发表于 2022-5-7 08:50:49
这既可以测试单个方法的概率Pm,也可以测试聚合panas的概率及其阈值τ*mnandτ*一重复交叉验证并非完全没有问题(例如Vanwinckelen和Blockeel[85]),但仍然是同时评估普遍性和不确定性的更好方法之一。我们通过计算估计概率和最佳阈值的SEs来评估模型输出的可信度,无论是单个方法还是聚合。我们遵循模型性能不确定性的方法来计算CVs和平均值比较测试。对于交叉验证和引导,样本外概率的500次重采样分别针对每种方法进行计算,并在加权和不加权的情况下进行平均,如上所述(即S=500)。根据这些数据,根据自举危机概率和最佳阈值,平均值和SE被绘制出来,并用于构建单个方法和集合的CV,这使我们能够测试模型输出在统计上显著高于或低于阈值的时间。上述实现的bootstrapsa还有另一个用途。我们利用CI作为不确定性的视觉表现。因此,我们产生了信心bandsh^θ*S·α/2,^θ*S·(1)-α/2)每个方法和国家的概率和阈值的完整时间序列,在评估模型输出的可靠性时,这是政策目的的有用信息。3.4. 赛马练习总结为了总结上述练习,我们在此提供交叉验证和递归赛马的简单描述,以及其中的步骤交叉验证:将整个样本分成大小相等的k倍,并使用剩余的k倍估计模型和阈值- 1倍的数据。

44
大多数88 在职认证  发表于 2022-5-7 08:50:52
收集每个遗漏折叠的样本外概率和二元预测递归:利用样本范围外的数据,将其分为各个季度,对模型进行估计,并使用每个季度之前的所有可用数据计算最佳阈值。对于这两个练习,所有样本外输出最终都会重新组装,并通过一系列评估指标对性能进行总结。这两种方法在数据采样方面有所不同,尤其是用于每次估计的样本内和样本外分区。虽然交叉验证在机器学习中很常见,并且允许有效地使用小样本,但尽管最有可能表现出时间依赖性,但数据是随机抽样的,这可能会让练习受益。相反,递归练习通过严格使用样本外预测的历史样本来解释数据中的时间依赖性,然而这需要更多数据,尤其是在时间序列维度。这两个练习允许探索不同方法的性能,以及评估练习对性能的影响。对于这两个练习,我们将通过以下步骤来估计单个模型、聚合模型输出并表示模型和性能不确定性:o在上述练习之后,使用所有单个方法m=1、2、。。。,M.o从PMM模型到暂停四种方法的聚合模型输出:最佳、投票、非加权和加权通过使用样本内数据的抽样(有或没有替换)和报告统计上显著的排名,重复练习来表示单个和聚合方法的模型性能不确定性通过使用样本内数据采样(有或没有替换)重复练习,并报告统计上的重大信号和非信号,来表示单个和聚合方法的模型输出不确定性。4.

45
kedemingshi 在职认证  发表于 2022-5-7 08:50:55
本节将上述介绍的概念应用于实践。使用欧洲样本,用大量方法完成赛马,应用聚合程序,并举例说明解释和表示模型不确定性的用途和有用性。4.1. 模型选择首先,我们需要为许多方法的自由参数导出合适的(即最佳)值。以上讨论的方法中,大约有一半有一个或多个与其学习算法相关的自由参数,其最优值是根据经验确定的。总之,这些方法是:信号提取、LASSO、KNN、分类树、随机森林、ANN、ELM和SVM。为了对这六种方法进行模型选择,我们利用网格搜索来寻找与样本外性能相关的最佳自由参数。根据每个自由参数的通用经验法则(即,通常为最小值和最大值以及其间的规则步骤)选择一组测试值,然后在参数集笛卡尔积的离散参数空间上执行穷举网格搜索。为了获得可推广的模型,我们使用10次折叠交叉验证和优化样本外有用性来指导算法的规格。最后,选择样本外有用性最高的参数组合,作为每种方法的等时参数。对于信号提取方法,我们改变使用的指标,并选择最有用的指标(完整表格见附录中的表a.1)。CHOSEN参数如表5所示。表5:通过网格搜索算法获得的最佳参数。方法参数信号提取偿债率套索λ=0.0012KNN k=2距离=1树木复杂度=0.01随机森林树木数量=180。

46
kedemingshi 在职认证  发表于 2022-5-7 08:50:59
采样的预测器数量=5ANN隐层单元数量=8最大迭代次数=200权重衰减=0.005ELM隐层单元数量=300激活函数=Tan sigSVMγ=0.4成本=1核=径向基4。2.预警模型赛马我们在本节中进行两种赛马:交叉验证赛马和递归赛马。这为预警方法的排序和同时使用多个模型提供了一个起点。交叉验证比赛。对预警方法进行排名的第一种方法使用10倍交叉验证。交叉验证工作的目的不是优化自由参数,而是生成包含所有方法的可比模型,这可以通过相似的数据采样和建模规范得到保证。对于上述方法,我们使用表5所示的最佳参数。没有自由参数的方法通过10倍交叉验证,无需进一步ado。表6显示了各预警方法交叉验证赛马的样本外结果,按有用性递减排序。首先,我们可以注意到SimpleApproach,如信号提取、LDA和logit分析,在可用性方面优于大多数机器学习技术。另一方面,最有用的方法是KNN和SVM。在AUC方面,QDA、random forest、ANN、ELM和SVM都取得了良好的效果。仍然值得注意的是,标准交叉验证测试不能解释潜在的过度相关性,因为信号提取的性能不佳可能会产生问题,我们还显示了u=0.9193=1的结果- 附录表A.2中的Pr(C=1)。考虑到事件的无条件概率,这个偏好参数有可能产生最大的效用。因此,我们还可以为大多数指标找到更大的有用价值。

47
何人来此 在职认证  发表于 2022-5-7 08:51:02
这突出了信号提取对所选偏好的敏感性。值得注意的是,网格搜索算法返回的ELM方法的最佳隐藏单元数量异常高。然而,如下所示,在交叉验证尤其是实时练习中,使用ELM方法获得的结果似乎没有表现出过度拟合。此外,通过比较ELM和ANN的结果(ANN只有八个隐藏单元),所有测试中的样本外结果本质上是相似的。由于数据的非线性依赖性,模型中的方法也更容易表现出非线性依赖性。

48
mingdashike22 在职认证  发表于 2022-5-7 08:51:06
然而,这可以通过递归实时分析轻松控制。表6:交叉验证估计的赛马。秩法精确查全率精确查全率精确查全率FP率FN率Ur(μ)AUC1 KNN 89 11 1048 4 0.89 0.96 1.00 0.99 0.99 0.01 0.04 0.06 93%0.9882 SVM 91 22 1037 2 0.81 0.98 1 0.00 0.98 0.02 0.02 0.06 92%0.9983 ELM 87 18 1041 6 0.83 0.99 0.98 0.98 0.02 0.07 0.06%0.9974神经网络85 11 1048 0.89 0.91 0.99 0.99 0.01 0.010.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0 1.810.98 0.91 0.90 0.09 0.19 0.04 54%0.93411 LDA 76 122 937 17 0.38 0.82 0.98 0.89 0.88 0.12 0.18 0.03 49%0.92712信号提取15 39 1020 78 0.28 0.16 0.93 0.96 0.90 0.04 0.84 0.00 6%0.692消极因素:该表报告了给定最佳阈值的交叉验证样本外性能排名,偏好为0.8,预测范围为5-12个季度。该表还在列中报告了评估模型总体性能的以下指标:TP=真阳性,FP=假阳性,TN=真阴性,FN=假阴性,精确阳性=TP/(TP+FP),召回阳性=TP/(TP+FN),精确阴性=TN/(TN+FN),召回阴性=TN/(TN+FP),准确度=(TP+TN)/(TP+TN+FP+FN),绝对和相对有效性Ua和Ur(见公式1-3),AUC=ROC曲线下的面积(TP率与FP率)。有关这些措施的更多详细信息,请参见第2.2节。TPFPTNFN积极的安全竞赛。

49
大多数88 在职认证  发表于 2022-5-7 08:51:09
为了进一步测试所有单个方法的性能,我们在这些方法之间进行了递归赛马。如第3.1节所述,从2005年第二季度开始(2006年第二季度为QDA),我们估计每个季度有可用信息的新模型,以识别同一季度的漏洞。除少数例外情况外,表7中的结果与表6中交叉验证赛马的结果一致。例如,排名前六位的方法都是相同的,只是在等级上存在微小差异,分类树在递归练习和交叉验证练习中表现不佳。一般来说,基于机器学习的方法再次优于早期预警文献中更传统的技术。在递归练习中,我们也用所谓的“未知事件”进行实验,因为已知任何给定的事件只有在预测期过去时才会平静。因此,我们测试了两种方法:(i)在每个季度删除一个长度相等的窗口作为预测范围,以及(ii)在指定的季度简单地使用危机前时期。我们可以得出结论,减少季度数对方法的排名没有影响,对绩效指标的水平只有轻微的负面影响。由于数据要求(仅2006年第二季度适用于QDA),2005年第三季度仅为开始季度,除此之外,表a。附录中的3显示了与表7类似的递归练习的结果,但每个预测季度之前的危机前窗口已被删除。需要注意的是,数据稀疏性阻碍了当前指标集的这项工作,因此我们放弃了贷款收入指标。虽然该表显示平均URC从46%下降到32%,平均AUC从0.87下降到0.86,这可能也与降低一个指标有关,但个别方法的排名没有变化,有少数例外。

50
kedemingshi 在职认证  发表于 2022-5-7 08:51:13
排名变化最大的是QDA,但这可能会在很大程度上与第一季度的变化相去甚远,并且只涉及有用性,因为AUC接近不变。此外,虽然机器学习方法的Ur(AUC)平均下降了13个百分点(0.01),但更传统的统计方法下降了16个百分点(0.05)。因此,这并不意味着将事件分配到参考季度会导致超额。方法调色板的附加值是,它不仅允许手工挑选类技术中最好的方法,还允许同时使用所有或多个方法。对于那些不熟悉机器学习方法的人来说,最近的一些机器学习方法可能不太容易理解,因此同时使用大量方法可能会通过性能比较和同时评估模型输出来建立可信度。因此,多个模型的目的与确认用途有关,因为政策通常是自由裁量过程的最终产品。另一方面,模型输出的不同性也可以被视为说明模型输出的不确定性或变化的一种方式。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-30 03:09