楼主: kedemingshi
785 26

[量化金融] 过去的相关性结构告诉我们关于未来的什么?答案 [推广有奖]

11
何人来此 在职认证  发表于 2022-5-25 08:23:17
在这两个数据集中都可以观察到类似块的结构,具有高结构持久性的周期和相关结构变化更快的其他周期。高度相似的块显示出比图2中更高的紧凑性。纽约证交所数据集中95%可信区间内为零,伦敦证交所数据集中16个数据集中为12个。关于99%可信区间,我们观察到纽约证券交易所16个数据集中有13个,而伦敦证券交易所16个数据集中有9个。非显著相关性仅出现在θ=250时,表明该长度太小,无法提供可靠的结构持久性度量。通过使用最小生成树(MST)[36]代替PMFG作为网络过滤,可以获得非常相似的结果。鉴于上述hESi(Ta)和q(Ta)的解释,反相关意味着相关性结构演化“速度”的增加(低hESi(Ta))很可能对应于历史数据对未来市场波动性的低估(高q(Ta)),然而,当结构演变“放缓”(高hESi(Ta))时,有迹象表明历史数据可能会高估未来的波动性。这意味着我们可以使用hESi(Ta)作为当前历史数据可靠性的有价值预测指标。这一结果在某种程度上令人惊讶,因为hESi(Ta)源自PMFGstopology,而PMFGstopology反过来只取决于相关性的排名,而不取决于它们的特征值:然而,这些信息提供了有关未来市场波动性的有意义信息,从而也提供了有关未来协方差的有意义信息。原则上,与相关性持久性hESi(Ta)相比,相关性排名结构的其他度量更直接,可能与q(Ta)具有相同的相互作用。因此,我们还考虑了元相关性z(Ta,Tb),即Ta和Tb处相关矩阵系数之间计算的Pearsoncorrelation(详见方法)。

12
何人来此 在职认证  发表于 2022-5-25 08:23:20
此类措施不使用PMFG。图4显示了纽约证券交易所(NYSE)和伦敦证券交易所(LSE)数据集通过该度量获得的相似性矩阵:我们可以再次观察到块状结构,但它们携带了图2中不同的信息(Ta,Tb);特别是,块显示出更高的内部相似性和更少的结构。与式1类似,我们将z(Ta)定义为过去L个时间窗口的加权平均值(见方法)。在选项卡中。3和4我们展示了z(Ta)和q(Ta)之间的相关性。正如我们所见,尽管参数θ和L的每个组合都存在反相关,但相关系数系统地比INTAB更接近零。1-2,其中使用hESi(Ta)。此外,根据区块自举法,纽约州16个显著皮尔逊系数中的12个,伦敦证交所数据集中16个显著皮尔逊系数中的10个。由于hzi(Ta)没有使用PMFG,该结果表明,与基于相关性的网络相关的过滤程序是一个必要的步骤,最多可以捕获相关性排名演变及其与波动率的相互作用。表1:纽约证券交易所数据集:hESi(Ta)和q(Ta)之间的相关性,参数θ和L的不同组合。星号表示置信区间不包括零的相关系数,置信度为95%(一星)或99%(双星)。置信区间由块自举样本计算得出。L10 25 50 100θ250-0.2129-0.2224-0.2997*-0.3498**500-0.4276**-0.4683**-0.4945**-0.5354**750-0.4994**-0.5499**-0.5837**-0.6018**1000-0.5789**-0.6152**-0.6480**-0.6874****p<0.001,*p<0.01,预测波动率:一种新方法本节我们评估了相关结构持续性hESi(Ta)通过其与前瞻性波动率比率(Ta)的关系预测未来的能力。

13
大多数88 在职认证  发表于 2022-5-25 08:23:23
特别是,我们侧重于估计q(Ta)是大于还是小于1:虽然这一信息不如精确估计q(Ta)那么完整,但它为我们提供了对未来波动率可能高估(q(Ta)<1)或低估(q(Ta)>1)的重要见解。我们的工作如下。在选择参数θ和L的情况下,我们计算了相应的对集{hESi(Ta),q(Ta)},其中a=1。。。,n、 然后,我们将Y(Ta)定义为分类变量,如果q(Ta)<1,则为0,如果q(Ta)>1,则为1。表2:LSE数据集:hESi(Ta)和q(Ta)之间的相关性,参数θ和L的不同组合。星号表示置信区间不包括零的相关系数,置信度为95%(一星)或99%(双星)。置信区间由块自举样本计算得出。L10 25 50 100θ250-0.2084*-0.1887*-0.1872-0.2269*500-0.3083**-0.3343**-0.3782**-0.4202**750-0.4050**-0.4409**-0.4334**-0.4374**1000-0.4552**-0.5285**-0.5480**-0.5227****p<0.001,*p<0.01,表3:纽约证券交易所数据集:hzi(Ta)和q(Ta)之间的相关性,参数θ和L的不同组合。星号表示置信区间不包括零的相关系数,置信度为95%(一星)或99%(双星)。置信区间由块自举样本计算得出。L10 25 50 100θ250-0.0992-0.0754-0.1055-0.1157500-0.2146-0.2232-0.2309-0.2753750-0.2997-0.3706*-0.4030*-0.4109*1000-0.3933**-0.4290**-0.4678**-0.4574***p<0.001,*p<0.01,表4:LSE数据集:对于参数θ和L的不同组合,hzi(Ta)和q(Ta)之间的相关性。星星标记那些置信区间不包括零的相关系数,95%(一颗星)或99%(两颗星)。

14
kedemingshi 在职认证  发表于 2022-5-25 08:23:26
置信区间根据块自举样本计算。L10 25 50 100θ250-0.1470-0.1095-0.1326-0.1720500-0.2365*-0.2113-0.2936*-0.3932**750-0.3123**-0.3379*-0.3538*-0.3851*1000-0.2917*-0.2954-0.3163-0.4192****p<0.001,*p<0.01,最后我们对Y(Ta)和hESi(Ta)进行了逻辑回归:即,假设[37]:pY(Ta)=1 | hESi(Ta)=x= sβ+βx, (6) 其中S(t)是S(t)=1+e的S形函数-t【38】;我们根据观测值{hESi(Ta),q(Ta)}a=1,…,估计参数β和β,。。。,n近似最大似然[39]。一旦对模型进行校准,给出一个新的观测值hESi(Tn+1)=x,如果PY(Tn+1)=1 | hESi(Tn+1)=x> 0.5,否则Y(Tn+1)=0。在只有一个预测值的情况下,该分类标准对应于根据hESi(Tn+1)是否大于或小于取决于β和β的阈值R对Y(Tn+1)进行分类,如图5(右图)所示,用于特定的参数选择。因此,预测市场波动性是增加还是减少的问题归结为一个分类问题[39],其中hESi(Ta)作为预测变量,andY(Ta)作为目标变量。我们使用了逻辑回归,因为它比多项式模型更适合处理分类问题【37】。其他分类算法可用;由于逻辑回归的简单性,我们选择了它。

15
kedemingshi 在职认证  发表于 2022-5-25 08:23:29
我们还实施了KNN算法[39],我们发现它提供了类似的结果,但在我们讨论的预测性能指标(Ta)i0方面的结果更差。3 0.4 0.5 0.6 0.7q(Ta)00.511.522.533.5训练集:纽约证券交易所数据集θ=1000θ向前=250L=100hES(Ta)i0。3 0.4 0.5 0.6 0.7q(Ta)00.511.522.533.5测试集:纽约证券交易所数据集θ=1000θ向前=250L=100Q1Q2Q4Q3hES(Ta)i0。3 0.4 0.5 0.6 0.7q(Ta)0.511.52训练集:LSE数据集θ=1000θ向前=250L=100hES(Ta)i0。3 0.4 0.5 0.6 0.7q(Ta)0.511.52测试集:LSE数据集θ=1000θ向前=250L=100q1q2q5q4图5:将数据划分为训练(左图)和测试(右图)集。训练集用于将Y(Ta)与hESi(Ta)进行回归,以估计逻辑回归中的成本,从而确定回归阈值,显示为垂直连续线。测试集用于在尚未用于回归的数据子集上测试此类回归的预测性能;如果hESi(Ta)大于回归阈值,则模型预测Y(Ta)=1(q(Ta)>1),否则andY(Ta)=0(q(Ta)<1)。在本节中。然后,我们评估了在给定新观测值hESi(Tn+1)的情况下,在估计Y(Tn+1)时logistic回归的优度。为此,我们计算了评估分类方法性能的三个标准指标:成功预测P+的概率、真阳性率T P R和假阳性率F P R。P+表示正确预测的预期分数,T P R是识别真阳性(在这种情况下,是波动率的实际增加)的方法优势,F P R量化了方法的假阳性趋势(预测波动率增加时,波动率将实际减少):有关更多详细信息,请参阅方法。

16
kedemingshi 在职认证  发表于 2022-5-25 08:23:34
总的来说,这些指标提供了模型在预测市场波动性变化方面的优势的完整总结【37】。为了避免过度拟合,我们通过样本外程序估算了上述指标【37,39】。我们将数据集分为两个阶段,一个训练集和一个测试集。在训练集中,我们校准了等式6中的logistic方程,估计参数β和β;在测试集中,我们使用校准模型通过计算公式9-11中的性能度量来衡量模型预测的优度。在图5中,对于NYSE和LSE数据集,该划分显示了θ和l的特定选择。在本例中,测试集中包含的数据百分比(我们称之为ftest)为30%。成功预测P+的概率在选项卡中报告。5和6,ftest=30%。正如我们所看到的,对于NYSEdataset中的所有参数组合,以及对于LSE数据集的几乎所有组合,P+都高于50%。星号标记的P+值明显高于使用q的最新值而不是hESi(Ta)作为logistic回归中q(Ta)的预测值所获得的相同概率(让uscall P+qsuch概率)。具体而言,我们定义了一个空模型,其中概率P+Q的变化仅由随机波动引起;给定n个观测值,此类波动遵循二项分布B(P+q,n),平均nP+q,方差nP+q(1- P+q)。然后,通过对每个参数组合使用此空分布计算p值。这种零假设解释了q(Ta)的可预测性,这是由于q(Ta)的自相关引起的;因此,P+显著高于该假设下的预期值意味着hESi(Ta)的预测能力,而不是由q(Ta)的自相关来解释。

17
能者818 在职认证  发表于 2022-5-25 08:23:37
从表中我们可以看出,在纽约证券交易所数据集的16个参数组合中,有12个参数的P+显著,而在伦敦证券交易所数据集的16个参数组合中,有13个参数的P+显著。这意味着相关性持续性是未来平均相关性的一个有价值的预测因子,能够优于基于过去平均相关性趋势的预测方法。只要训练集足够大以允许对Logistic回归进行精确校准,这些结果对于ftest的变化是稳健的。我们发现,当ftest<40%时,该条件满足。然而,P+没有提供任何关于方法区分真阳性和假阳性能力的信息。为了研究这一方面,我们需要T P R和F P R。从二元分类器中表示这两种度量的传统方法是所谓的“接收机工作特性”(ROC)曲线【40】。在ROC图中,随着鉴别阈值的变化,T P R与F P R绘制。判别阈值pmaxis是公式6中的概率值,在该值上,我们将Y(Ta)=1分类:最大值越高,方法将Y(Ta)=1分类的可能性越小(在对P+的分析中,我们选择pmax=0.5)。理想情况下,对于所有pmax>0的情况,一个完美的分类器将产生T P R=1,而一个随机分类器预计位于T P R=F P R线上。因此,位于T P R=F P R线上的aROC曲线表明一个分类器比区分真阳性和假阳性的机会更好【37】。如图6所示,ROC曲线的位置取决于参数θ和L的选择。在这方面,我们的分类器在L和θ值较低时表现更好。这可以通过测量ROC曲线下的面积来量化;此类测量值通常由AUC表示【37】,显示在选项卡中。7-8。

18
nandehutu2022 在职认证  发表于 2022-5-25 08:23:41
对于这两个数据集,参数的最佳选择是θ=500和L=10。表5:纽约证券交易所数据集:对于参数θ和L的不同组合,成功预测P+的概率。样本外分析。L10 25 50 100θ250 0.546 0.560*0.599**0.539**500 0.704**0.695**0.658**0.605**750 0.634*0.585 0.539 0.708*1000 0.704*0.7638**0.839**0.860**p<0.001,*p<0.01,表6:LSE数据集:成功预测p+的概率,用于参数θ和L的不同组合。样本外分析。L10 25 50 100θ250 0.616**0.645**0.612**0.568**500 0.652**0.635**0.598**0.393750 0.651**0.560**0.453**0.4121000 0.544**0.573**0.706**0.689**p<0.001,*p<0.01,预测绩效的时间演变在本节中,我们研究预测绩效在不同时间段的变化。为了探索这一方面,我们在每个时间窗口计算了Y(Ta)预测的N+(Ta)个数(在16个预测中,对应于θ和L的许多组合),结果是正确的;然后,我们计算了成功预测的分数n+(Ta),即n+(Ta)=n+(Ta)/16。这样,n+(Ta)代表了我们方法在每个时间窗口的优点。

19
能者818 在职认证  发表于 2022-5-25 08:23:44
Logistic回归参数β和β已使用整个时间段作为训练集进行校准,因此这相当于样本分析。0 0.5 1TP00。510 0.5 100.510 0.5 100.510 0.5 100.510 0.5 1TP00。510 0.5 100.510 0.5 100.510 0.5 100.510 0.5 1TP00。510 0.5 100.510 0.5 100.510 0.5 100.51FP0 0.5 1TP00。51FP0 0.5 100.51FP0 0.5 100.51NYSE数据集FP0 0.5 100.51L=10L=25L=50L=100θ=250θ=750θ=1000θ=5000 0.5 1TP00。510 0.5 100.510 0.5 100.510 0.5 100.510 0.5 1TP00。510 0.5 100.510 0.5 100.510 0.5 100.510 0.5 1TP00。510 0.5 100.510 0.5 100.510 0.5 100.51FP0 0.5 1TP00。51FP0 0.5 100.51FP0 0.5 100.51LSE数据集FP0 0.5 100.51L=100L=25L=10L=50θ=250θ=750θ=1000θ=500图6:接收机工作特性(ROC)曲线。上图:真实阳性率(TPR)与假阳性率(FPR),因为对于NYSEdataset中的每个参数θ和L组合,分类器的判别阈值pMaxo是不同的。曲线越靠近每个图表的左上角,与偶然性相比,类别越好。底图:真阳性率(TPR)与假阳性率(FPR),因为分类的判别阈值PmaxO因LSE数据集中参数θ和L的每个组合而不同。表7:纽约证券交易所数据集:曲线下面积(AUC),根据图6中的ROC曲线测量。

20
nandehutu2022 在职认证  发表于 2022-5-25 08:23:48
大于0.5的值表示分类器的性能优于Chance。L10 25 50 100θ250 0.669 0.652 0.655 0.616500 0.775 0.753 0.710 0.625750.663 0.6220 0.574 0.5201000 0.467 0.470 0.462 0.314Ta1998 2000 2004 2008 2008 2010 2012年2月+(Ta)00.51预测值:qNYSE数据集1998 2000 2002 2004 2006 2008 2008 2010 2012年2月+(Ta)00.51预测值:<ES>Ta2001 2002 2003 2005 2007 2008 2009 2011 2012年3月+(Ta)00.51预测值qLSE数据集2001 2002 2003 2004 2005 20062007 2008 2009 2010 2011 2012 2013n+(Ta)00.51预测值:图7:成功预测的分数随时间的变化。NYSE(左图)和LSE数据集(右图)。预测基于逻辑回归,预测因子hES(Ta)i(顶部图)和最近的q(Ta)值(底部图)。水平线表示整个期间的平均值。在图7中,我们显示了NYSE和LSEdatasets成功预测的分数(上图,蓝色圆圈)。为了进行比较,我们还显示了使用q(Ta)的最新值作为预测值得到的相同测量值(底部图);如表8所示:LSE数据集:曲线下面积(AUC),根据图6中的ROC曲线测量。大于0.5的值表示分类器的性能优于Chance。L10 25 50 100θ250 0.673 0.658 0.618 0.524500 0.727 0.700 0.602 0.431750 0.324 0.274 0.234 0.1481000 0.233 0.168 0.0918 0.0160在上一节中,它表示一个仅使用q(Ta)的最后演化进行预测的空模型。正如我们所见,基于hESi(Ta)和q(Ta)过去值的预测都显示了性能随时间的变化。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-6 17:37