楼主: 可人4
1587 37

[量化金融] 通过协方差惩罚避免后验过度拟合:一项经验研究 [推广有奖]

11
kedemingshi 在职认证  发表于 2022-6-23 22:21:52
多重测试的其他挑战(特别是当使用暴力惩罚,如BHY、Holm和Bonferroni)包括:o常识的影响是什么先前的信息如何影响正在测试的假设?(以及正在设计的战略)?o如果多个分析师查看相同的数据,他们是否应该根据彼此的观察结果进行处罚如果按照不同的顺序进行测试,结果会有所不同,那么这对方法的理念有何影响我们如何知道我们是否受到其他看到相同数据的人的影响甚至可能不了解相关的财务历史吗?尽管必须注意和关注历史的过度使用,但尚不完全清楚多重测试的理念,尤其是维亚比、霍尔姆和邦费罗尼的做法,是否适合金融应用。尽管如此,我们相信该方法是绝对有用的,可以与我们自己的方法结合使用。作为一个尚未解决的领域,防止过度投资需要多种方法。2.3交叉验证评估在Bailey等人[3]中,作者提供了一套定义、工具和基准来描述所谓的回溯测试过度匹配。从某种意义上说,这项工作扩展了同一组作者之前的研究和发现,例如夏普比率受到影响的概率[4],以及确定夏普比率在统计上不同于给定阈值的最小跟踪记录[2]。在定义方面,作者认为,如果样本中的预期绩效低于所有策略中样本的绩效中位数,则战略选择优于绩效。

12
mingdashike22 在职认证  发表于 2022-6-23 22:21:55
通过战略选择,它意味着使用一组性能指标(例如夏普比率)对可用战略进行排名的一种方式。关于工具,他们提出了称为组合对称交叉验证(CSCV)的程序,该程序简要概述如下,如图2所示。图2:当S=4时,生成CSCV文件夹。每个字母代表一个块,请注意,每当发生shu-free时,都需要对每个样本集内和样本集外的块重新排序。1、在回溯测试范围内(其中S为偶数自然数),将若干策略的收益和损失分成S个偶数大小的区块;2、在所有可行的安排下对这些街区进行重新规划,以尽可能保持自然景观;对于安排的每个前半部分(样本中),找到给定绩效指标的最佳策略,并将其与样本集外的排名(后半部分)进行比较。通过这些排名和比较,作者计算出四个补充指标:1。回测过拟合概率:样本中选择为最优的模型配置低于样本外N个模型配置的中位数的概率。2、性能下降:这决定了样本中性能的提高在多大程度上会导致样本外性能的降低(在[2]中讨论)。3、损失概率:被选为最佳Is的模型将产生损失OOS的概率。4、随机优势:该分析确定了选择策略的程序是否优于在N个备选方案中随机选择一个模型配置。此外,在基准测试方面,作者还提出了一些综合的和实用的测试用例。

13
何人来此 在职认证  发表于 2022-6-23 22:21:58
从这个意义上说,这些研究的目的是评估所提出的框架是否能够避开具有不同超参数集(策略数量、回溯测试长度和过度程度)的过度匹配策略。我们可以强调两个主要的评论家对这部作品的评价:1。保留时间依赖性:作者声称他们的方法保留了时间依赖性。他们的支持是这样一个事实,即他们的方法对样本内和样本外的数据块进行了重新排序,有人可能会认为每日收益往往呈现弱自相关。然而,这种关于保持时间依赖性的说法显然不是绝对正确的:只需查看图2.2中的第三到第五行。样本内和样本外度量中的高重叠度:可以很容易地注意到,样本外部分(以及样本内)中多次出现高水平的块并置。在提出CSCV时,作者将k-foldCrossValidation作为灵感,忘记了深入分析高度相关的样本外文件夹的影响(在k-foldcross-validation的情况下不会发生这种情况)。

14
能者818 在职认证  发表于 2022-6-23 22:22:01
这种相关性对标准误差和假设检验的计算产生了影响,从而降低了样本评估的质量。2.4总结表1根据其在实践中使用的广度/通用性以及用于解决回测过度匹配问题的解决方案类型,对之前的所有调查线进行了分类,并添加了协方差惩罚。表1:反测试覆盖中所有四条调查线的分类。广度/解决方案样本外评估中的多重假设通用数据窥探交叉验证假设高估绩效协方差惩罚数据窥探和高估绩效作者发现,任何过度匹配或虚假结果的根本原因是由于分析员在策略最终调整步骤中采用的多重试验(假设)。然而,数据窥探解决方案往往更通用,它基于自举回报,代价是增加计算负担。高估的性能解决方案基于一组假设,允许作者找到封闭形式的解决方案或更简单的算法,使性能校正方面更容易计算。相反,交叉验证评估和协方差惩罚校正的重点是通过发现策略的预期泛化(样本外)潜力来避免样本内的明显表现。

15
何人来此 在职认证  发表于 2022-6-23 22:22:04
同样,它们的幅度也不同:协方差惩罚校正方法需要对资产和交易策略的联合行为进行一些假设,而大多数交叉验证程序并非如此。然而,这种假设的缺乏要求对协方差惩罚方法进行额外的计算处理。3交易策略的协方差惩罚本节概述了本文使用的理论结果和符号。我们首先阐述单周期线性策略及其一些性质。然后,我们通过最大化相关性及其与夏普比率效用函数的联系来优化交易策略。这个结果/链接允许我们用本文的主要结果来结束这一部分:夏普比率的协方差惩罚校正。3.1单期线性策略我们考虑单个资产的(对数)回报率,Rt~ N(0,σR)在滞后k时返回自协方差函数,γ(k)=E[RtRt-k] ,以及相应的自动相关函数(ACF),c(k)=γ(k)/γ(0),滞后k。我们的主要目标是使用基于线性投资组合权重(或信号)Xt=∑的策略∞akRt公司-kfor系数AK生成相应的动态策略会返回St=Xt·Rt(这里,并且总是,信号Xt被认为只有适当的滞后信息)。示例策略权重包括指数加权移动平均数ak∝ λk,simple movingaverages ak=T[1,…,T],来自ARMA模型的预测,等等。最重要的是,投资组合权重X是正态的,并且与收益R共同正态。我们将注意力限制在单个时期的收益分布上。在许多动量策略的情况下,这段时间可能是一天,如果不是更长的话。对于更高频率的日间策略,这一时间段可以更短。

16
可人4 在职认证  发表于 2022-6-23 22:22:08
最重要的问题是,期限(即一个时期)与重新平衡战略权重的期限相同。如果权重为再平衡五分钟,则单个周期应为五分钟。这是一个必要的假设,以确保(尚未确定的)信号和未来回报的联合正常性。此外,这个假设将为我们的结果提供一些背景,这意味着动态线性策略的最大夏普比、最大偏度和最大峰度。我们感兴趣的是描述该策略无条件回报的时刻、估计量的相应标准误差,以及通过使用信号的非线性变换来优化各种无量纲回报度量的方法,如夏比。我们的目标是了解战略的无条件属性。在策略设计中避免预见性很重要,这会直接影响策略的条件属性(例如,条件密度涉及对当前观察到的信号进行条件化处理,以确定收益的属性,这只是高斯分布)。在我们的研究背景下,我们关注的是我们策略的无条件回报分布的提前一段时间的回报,在这种情况下,信号和回报都是不可观察的,并且由此产生的分布(在我们的例子中,两个正态分布的乘积)更丰富、更现实。3.2线性策略的性质由于信号和收益的联合正态性,我们可以明确描述单期策略收益的特征(见[9])。为了允许更大的可扩展性,我们宁愿只考虑结果分布的矩。使用Isserlis定理(27)可以很容易地描述这些特征,该定理给出了任何多元正态随机变量在均值和方差方面的所有矩。

17
能者818 在职认证  发表于 2022-6-23 22:22:11
Wealso提到了[19],他精心制作了高斯幂和积的非中心矩和中心矩。虽然这是Isserlis定理的常规应用,但代数可能会很乏味,所以我们引用了结果。定理1(Isserlis(1918)[27])。如果X~ N(0,∑),则ne[XX···X2n]=2nXi=1Yi6=jE[XiXj]和[XX··X2n]-1] =0,其中所有(2n)上的QIs/(2nn!)X,X,…的唯一分区。X2ninto对XiXj。霍尔丹的论文引用了大量基于矩的结果,对每种法线的不同幂次进行了计算。我们引用了相关结果。定理2(霍尔丹(1942)[19])。如果x,y~ N(0,1)具有相关性ρthenE[xy]=ρE[xy]=1+2ρE[xy]=3ρ(3+2ρ)E[xy]=3(3+24ρ+8ρ),因此xy的中心矩为u=ρ=1+ρ=2ρ(3+ρ)u=3(3+14ρ+3ρ),从这些单周期矩中,(以及给出σ(x)和σ(y)依赖关系的简单缩放参数),我们可以表征夏普比、偏度等。,还可以定义目标函数,以确定给定策略的某种最佳感。定理3(线性高斯)。对于单资产回报和单期策略,Rt~ N(0,σR)和Xt~ N(0,σX)与相关ρ共同正态,夏比由r=ρp1+ρ(5)给出。偏度由γ=2ρ(3+ρ)(1+ρ),(6)给出,峰度由γ=3(3+14ρ+3ρ)(1+ρ)(7)给出。在附录中,我们将方程(5)和(6)扩展到非零均值的情况。证据定理2的一个简单应用为我们的策略St=Xt·Rt给出了以下两个时刻:u=E[St]=E[X·R]=σXσRρ。u=V ar[St]=σXσR(ρ+1)。

18
可人4 在职认证  发表于 2022-6-23 22:22:14
因此,我们可以推导出以下关于速比的结果,SR=u1/2=σXσRρXσRpρ+1=ρpρ+1(8)。此外,我们可以看到偏度,γ=u3/2=2ρ(3+ρ)(1+ρ)3/2(9)。最后,峰度由γ=u=3(3+14ρ+3ρ)(1+ρ)(10)给出。如果我们将注意力限制在正相关上,所有三维统计在ρ中单调增加。因此,使其中一个统计数据最大化的策略将使其他统计数据最大化,尽管相关对夏普比、偏度和峰度的影响是不同的。我们在下面的图表中说明了交叉依赖关系,描述了变量之间的关系。在图3中,蓝色阴影直方图对应于相关范围({[-1.-0.5], [-0.5, 0], [0, 0.5], [0.5, 1]}). 我们注意到,相关性中的均匀分布映射为更高的极端夏普拉蒂奥概率,以及更高的极端偏度和峰度概率。倾斜范围[-23/2, 23/2] ≈ [-2.8, 2.8]. 与夏普比率不同,偏度对相关性的依赖性趋于减弱,因此要实现90%的峰值偏度,只需实现0.60的相关性,而对于90%的峰值夏普,则需要0.85的相关性。峰度是一个偶数函数,从最小值9到最大值15不等。在实践中,相关性将很大程度上趋于零,由此产生的偏度和峰度明显小于最大值。虽然我们分析了策略St=XtRt的时刻,但实际已知的完整产品密度为封闭形式(见附录A、[9]和[36])。很明显,即使在不具有预测性的情况下,策略的分布也是轻量级的(当相关性为零时,策略的峰度为9)。

19
能者818 在职认证  发表于 2022-6-23 22:22:17
在ρ极限内→ 1,该策略的密度接近非中心χ,这是在考虑最优线性动态策略设计时的一种有效的最佳情况密度。具有有效滞后的优化策略(以及确保节约的手段)可能能够捕获均值回归和趋势,并产生更高的相关性。0.5-1.5之间的年化夏普比率是这种相对较低频率制度下单一资产策略最常见的比率(即相关性在3%到9%之间)。3.3优化:最大相关、总最小二乘许多算法交易者会解释策略优化有多大问题,因为过度匹配等问题层出不穷。尽管这些问题值得关注,但图3:相关性、夏普比率、偏度和峰度对相关。相关性中的均匀分布分为四个范围{[-1.-0.5], [-0.5,0],[0,0.5],[0.5,1]}如条形图中以蓝色阴影所示。将相关性转换为SR、γ和γ后,频率不再均匀。单纯使用无中生有的策略同样存在问题,因为没有明确使用优化(取而代之的是更多的眼球策略或相对宽松的夏普比率目标,实际上是一种较为宽松的心理优化练习)。大量的实际考虑因素表明,真实世界的回报既不是高斯的,也不是平稳的。我们毫不犹豫地认为,使用优化和明确的效用函数作为起点是防止策略只是未经测试的启发式的一种手段。

20
能者818 在职认证  发表于 2022-6-23 22:22:21
与大多数自由裁量交易员的启发式(或经验法则)不同,启发式定量交易策略具有完全武断的风险,或受到大量人为偏见的影响,这与蒙尼克尔定量投资策略形成了鲜明对比。大多数自由裁量交易员的启发式(或经验法则)作为一种处理不确定性的手段(参见示例[17])。如果使用优化,最常用的优化方法是最小化预测的均方误差(MSE)。我们的结果表明,如果目标是最大化夏普比率,我们必须最大化相关性,而不是最小化信号和预测回报之间的Lnorm(或最大化可能性)。我们可以在图4和图5中看到,使用EWMA和HW过滤器对各种参数应用于标准普尔500指数的策略的描述。如图4所示,EWMA滤波器的MSE和Sharpe比率之间的关系在MSE中不是单调的,而在相关性和Sharpe之间的关系中更接近于线性。对于HW(有两个参数)的情况,在图5中,任何给定的MSE都可能导致非唯一的夏普比率,图4:EWMA策略夏普比率与α、MSE和标准普尔500指数反转策略的相关性图5:霍尔特·温特斯策略夏普比率与标准普尔500指数反转策略的MSE和相关性有时范围非常广泛,这导致我们得出这样的结论:优化的条件很差。与Sharpe的相关性明显更接近线性,相关性越高,几乎总是导致Sharperios越高。对于具有(无约束)线性信号的一维预测问题,优化相关性相当于使用已知的astotal最小二乘回归(TLS)或正交距离回归,一种主成分回归形式(参见,例如,[18]和[34])。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-9 07:13