楼主: mingdashike22
2486 82

[量化金融] 走向稳健的预警模型:赛马、团队和模型 [推广有奖]

31
可人4 在职认证  发表于 2022-5-7 08:50:06
如前所述,使用K-折叠交叉验证,存储样本外数据产生最佳性能的自由参数,并应用于后续分析。文献中通常提到K值很小,K=10是最常用的褶皱数之一(参见张[88])交叉验证赛马利用10倍交叉验证对不同模型的泛化性能进行客观的相对评估。交叉验证的后一个目的是赛马的核心,因为它允许模型的比较,因此不同的建模技术,但仍然确保相同的抽样。然而,交叉验证的标准方法可能并非完全没有问题。当我们使用面板数据时,包括横截面和时间维度,我们还应该考虑数据更可能表现出时间依赖性这一事实。尽管交叉验证文献提出了降低依赖性影响的先进技术,如Chu和Marron[22]提出的所谓改进交叉验证(Arlot和Celisse[6]中的进一步示例),但最突出的方法是将每个预测的估计样本限制为历史数据。为了测试模型,从实时分析的角度来看,我们使用一个递归练习,在每个季度仅使用截至该时间点的可用信息导出一个新模型。这使我们能够测试使用一种方法是否能够提供预测2007-2008年全球金融危机的手段,以及如何根据任务的表现对方法进行排名。这涉及到通过滞后的基于会计的指标(2个季度)和基于市场的变量(1个季度)来解释发布滞后。递归算法如下所示。

32
kedemingshi 在职认证  发表于 2022-5-7 08:50:10
我们在每四分之一处估计一个模型,利用该点的所有可用信息,评估信号以设置最佳阈值τ*,并在样本数据中提供具有相同阈值ason的每个经济体当前的脆弱性估计。因此,阈值是时变的。最后,我们收集所有的概率和保留值,以及信号,并评估模型在样本外分析中的表现。与任何事后评估一样,必须承认,这项工作也是以准实时的方式进行的,需要注意以下几点。鉴于数据提供者报告数据的方式,不可能对数据修订进行解释,因此可能会在发布后发生潜在变化。此外,我们还试验了两种不同的方法来实时使用危机前时期作为因变量。预测期为三年,只有在三年后,我们才能在每个季度确定当前季度是否是危机前的危机时期(除非过去三年发生了危机)。我们测试了两种方法,一种是降低一个与预测范围相等的窗口,另一种是对指定季度使用危机前时期。作为一场赛马,递归估计从实时分析的角度测试模型。使用尽可能早的样本数据,递归练习从2005年第2季度开始,但QDA方法除外,该方法的分析从2006年第2季度开始,因为与其他方法相比,需要更多的训练数据。该程序使我们能够在没有关于最近危机的累积阶段的事先信息的情况下测试性能。这只是对精确实施的简化。

33
可人4 在职认证  发表于 2022-5-7 08:50:14
事实上,我们总结了权变矩阵的所有元素,然后才计算出最终有用性UKr(u)。值得注意的是,使用两个单独的测试,交叉验证和递归评估,仍然有很好的动机。如果我们也会针对递归评估优化自由参数,那么我们可能会冒着将其过度匹配到手头的特定情况的风险。因此,如果交叉验证选择的最佳参数也在递归评估中执行,我们可以确保模型不会过度拟合数据。取消危机前窗口的缺点是,由于时间序列较短,需要的递归起始日期要晚得多,而且会扭曲指标与危机前事件之间的真实关系。后一个论点意味着模型选择,尤其是变量选择,与季度下降将是有偏见的。例如,如果一个指标完美地反映了2008年所有同时发生的危机,而不是更早的危机,那么递归测试将显示糟糕的表现,并指出该指标没有用处。与影响因变量关系的独立变量滞后相比,值得注意的是,在危机前阶段使用该方法不会影响每个季度数据和信息集的最新可用关系。3.2. 聚合过程从单个方法开始,我们通过许多聚合过程将几种不同方法的输出合并为一种。这里的方法来自机器学习的子领域,重点是集成学习,其中的主要目标是使用多状态学习算法以获得更好的预测性能。虽然我们的目标是简单,并且不采用本文中最复杂的算法,但我们在组装学习中使用了两种常见的方法:bagging和boosting。

34
nandehutu2022 在职认证  发表于 2022-5-7 08:50:18
Bagging代表引导聚合[13],它利用原始数据的重采样,将原始数据聚合为一个模型输出。虽然beingan方法用于集成学习,但我们将在重采样和模型不确定性的主题下对此进行讨论,如第3.3节所示。Boosting[78]指的是计算多个模型的输出,然后用指定的权重对结果进行平均,我们在下面的聚合过程中主要依赖这些权重。为了简单起见,本文没有使用第三组叠加方法[87],它们在单个模型输出的基础上添加另一层模型,以提高性能。同样,我们使用通过交叉验证网格搜索确定的最佳自由参数,然后估计各个方法。为此,我们使用了四种不同的聚合程序:最佳和投票方法,以及概率的算术和加权平均。最佳方法只是通过选择最精确的方法来使用单一方法m。为了以真实的方式使用信息,我们总是选择独立于练习(即交叉验证或递归)的方法,该方法具有最佳的样本相对有用性。简单投票使用所有方法m=1,2,…,的信号Bmnof。。。,M代表每项观察结果,以表明是否以多数票为基础。也就是说,总Ban选择从所有单个方法中获得最大总投票数的类:Ban=1如果MPMM=1Bmn>0.50,则BM为方法m和观察n的二进制输出,Banis为多数票合计的二进制输出。聚合概率需要在建模过程中提前介入。与bestof和voting方法相比,我们直接利用每种方法m的概率pmnof对allobservations n进行平均,将其转化为聚合概率。

35
可人4 在职认证  发表于 2022-5-7 08:50:21
更简单的情况是使用算术平均值来推导聚合概率。对于加权聚合概率pan,我们在设置方法权重时利用了样本内模型的性能,因此最精确的方法(样本内)在聚合中的权重最大。观测XnCa的非加权概率和加权概率可以如下导出:pan=MXm=1wmPMm=1wmpmjm,其中每种方法m的概率pmno都用其用于allobservations n的性能度量wm进行加权。在本文中,我们使用权重wm=Umr(u),但该方法适用于任何选择的度量,如AUC。这种加权方法的特点是赋予最不有用的方法以最小的权重,并因此偏向于更有用的方法。对于wm=1,算术平均值可显示为pan=MPMm=1PMN。为了在实时设置中仅使用可用信息,用于加权的Umr(u)总是指样本内结果。为了确保非负权重,我们从性能度量向量中删除了具有负值(即Umr(u)<0)的方法。如果所有方法都显示出负面的有用性,那么它们将被赋予同等大小的权重。计算聚合概率pan后,将其视为一种方法(即pmn)的输出,并将其视为最佳阈值τ*据此确定。相比之下,基于确定的单个方法和表决信号的最佳接近信号,如果且仅限于大多数方法信号,则不需要单独的阈值。因此,总体交叉验证有用性的计算方式与单独方法相同。同样,对于递归模型,过程是相同的,包括使用采样内有效性Umr(u)进行加权。3.3.

36
kedemingshi 在职认证  发表于 2022-5-7 08:50:24
模型不确定性我们在这里处理与模型性能不确定性和模型输出不确定性有关的分类任务中的不确定性。虽然从多个来源下降并与多个特征相关,但我们特别关注与模型参数耦合的不确定性。因此,如果使用不同的数据集对模型进行估计,我们将评估模型参数和预测的变化程度。随着数据的变化,预测中的变化是由不精确的参数值引起的,否则预测总是相同的。不要把可变性和模型性能的测量混为一谈,预测中的零参数值不确定性仍然不意味着完全准确的预测。为了表示任何不确定性,我们需要推导估计值的属性,包括标准误差(SE)、置信区间(CI)和临界值(CV)。为了在预警建模中进行稳健的统计分析,我们首先介绍了通过重采样进行早期预警推断的一般方法,然后介绍了评估模型性能和输出不确定性所需的规格。预警推理。从传统的统计理论中推导和推导估计值性质的标准方法。如果我们知道数据生成过程(DGP),我们也知道对于数据x,x。。。,xN,我们用平均值^θ=PNn=1xn/N来估计x的期望值,SE^σ=rPNn=1xn-^θ/n显示^θ估计真实期望的程度,以及通过^θ±t··∑(其中t是CV)的CI。然而,我们很少知道DGP,因此无法从原始人群中生成新样本。

37
何人来此 在职认证  发表于 2022-5-7 08:50:28
按照上述交叉验证[82]的思路,我们通常可以模拟通过一系列重采样技术获得新数据的过程,包括置换测试[35]、折刀[65]和引导[27]。在这一阶段,我们将重采样概括为对同一已知样本的子样本进行随机和重复采样。因此,在不生成额外样本的情况下,我们可以使用估计量的抽样分布来推导感兴趣的估计量及其属性(即SEs、CIs和CVs)的可变性。对于推导估计器性质的重采样技术的一般性讨论,读者参考了埃夫隆[28,29]和埃夫隆与蒂布什拉尼[30,31]的原著。让我们考虑一个n=1的样本。。。,N一个因变量yng和解释变量xn的独立观测值。我们认为我们的重采样是通过从观察样本中绘制独立的Lyn对(xn,yn)来配对的。重采样包括随机抽取样本s=1。。。,从观察到的样本中提取,在这种情况下,单个样本为(xsn,ysn)。为了估计任何估计器^θ的SEs,我们利用重采样^θ的经验标准偏差来近似这些σ(^θ)。我们的工作如下:1。从(xn,yn)中提取大小为N的独立样本(xsn,ysn)。通过^θ估计参数θ*对于每个重采样s=1。。。,S.3。通过σ=rS估算σ(θ)-1Ps=1^θ*s-^θ*, θ在哪里*=SPSs=1^θ*s、 现在,给定一个一致且渐近正态分布的估计量^θ,重采样的SEs可以分别用于构造近似CI和基于正态分布进行渐近检验。

38
mingdashike22 在职认证  发表于 2022-5-7 08:50:31
因此,我们可以使用百分位数构建一个双侧不对称但等尾(1- α) CI,其中重采样的经验百分位数(α/2和1- α/2)被用作模型参数不确定性的下限和上限,无论估计有多精确,模型都不会是完美的,因此总是存在剩余模型误差。为此,我们没有解决模型结构中的错误导致的模型输出(或模型错误)的不确定性,尤其是与我们数据集中使用的危机事件和指标(即自变量和因变量)有关的不确定性。信任边界的限制。我们利用上述步骤1和2,然后按如下步骤进行:。对估计量^θ的重采样复制进行排序,使^θ*≤ ... ≤^θ*B.使用S·α/2和S·(1)- α/2)阶元素作为置信边界的下限和上限,估计(1- α) ^θish^θ的CI*S·α/2,^θ*S·(1)-α/2)i.使用上面讨论的重采样SEs和近似CI,我们可以使用空H的常规(但近似)双边假设检验:θ=θ。如果θ在双尾(1)外- α) 对于显著水平α,无效假设被拒绝。然而,如果我们有两个具有非重叠CI的重采样估计量^θi和^θj,很明显,它们必然存在显著差异,但如果它们重叠,则不一定存在显著差异。我们关心的不是平均数,而是两种平均数之间差异的检验统计。

39
可人4 在职认证  发表于 2022-5-7 08:50:35
对于(1)而言,两种方法存在显著差异- α) 当群体平均数之间差异的CI不包含零时的置信水平:^θi-^θj- tq^σi+^σj>0。然而,我们可能违反了正态假设,因为计算CIs的传统学生t分布依赖于从异常人群中抽样。尽管我们可以通过中心极限定理证明,如果父总体的抽样是独立的,分布是近似正态的,但近似程度仍然取决于样本量N以及父总体与正态的接近程度。由于重采样背后的共同目的不是强加这种分布假设,一种常见的方法是依赖所谓的重采样t区间。因此,根据重采样的统计数据,我们可以解决t*并在经验分布上使用信心削减。给定^θ和^σ(^θ)的一致估计,以及t统计量t=^θ的正态渐近分布-θ^σ(^θ)→ N(0,1),我们可以导出近似对称CVs t*从t统计量的所有重采样的经验分布的百分位数。1.使用观察样本一致地估计参数θ和σ(θ):θ和σ(θ)。从(xn,yn)中提取大小为N的独立重采样(xsn,ysn)。假设θ=^θ,估计t值t*s=^θ*s-^θ^σ*s(^θ)对于s=1。。。,θ在哪里*沙^σ*s(^θ)是θ及其SE的重采样。4.对t的重采样复制品进行排序,使| t*| ≤ ... ≤ |T*S |。用S·(1)- α) 作为CV,我们有tα/2=T*S·(1)-α)和t1-α/2=T*S·(1)-α).利用这些对称CV,我们可以利用上述平均值比较测试。然而,由于两种方法的重采样t间隔的CVS可能不同,我们对测试统计数据进行如下修改:^θi-^θj-T*jS·(1)-α) +t*是·(1)-α) q^σi+^σj>0。模型性能不确定性。

40
能者818 在职认证  发表于 2022-5-7 08:50:40
对于一场稳健的赛马和方法排名,我们利用抽样技术来评估模型性能的可变性。我们计算每个单独的方法和重新取样的总SEs的相对有用性和AUC度量。然后,我们使用SEs获得测量的CV,分析方法和集合之间的成对性,以及区间是否表现出统计上的显著重叠,并生成表示方法和集合之间成对显著差异的矩阵。更正式地说,与检验统计量相比,如果较大均值的CI下界大于较小均值的CI上界,或^θi+t·^σi>^θj+t·^σj,我们可以看到两个均值没有重叠。而simplealgebra给出了如果^θi+t·^σi>-^θj>t^σi+^σj, 检验统计量仅通过平方根和平方和进行区分:^θi-^θj>tp^σi+^σj。Asp^σi+^σj<^σi+^σj,很明显,在两组平均CI之间没有重叠之前,平均差异变得明显。和j具有相同的样品外性能,可表示为H:Uir(u)=Ujr(u)(和同样的forAUC)。为此,方法I和j的样本外性能差异的替代假设是H:Uir(u)6=Ujr(u)。在机器学习中,有监督的学习算法由于两个误差源(偏差和方差)而无法对其训练数据进行泛化。偏差指的是学习算法中错误假设产生的误差(即低于fit),而方差则指的是训练集中小波动敏感性产生的误差(即高于fit)。上述K-折叠交叉验证可能会导致模型具有高方差和非零但小偏差的风险(例如,Kohavi[56],Hastine等人[41])。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-29 19:26