楼主: 可人4
1469 48

[量化金融] 用机器方法降低均值-方差组合的估计风险 [推广有奖]

31
大多数88 在职认证  发表于 2022-6-9 21:53:29
一旦按照随机顺序检查了所有资产,就可以使用(25)绘制后验概率向量和相应的噪声级。重复此过程数千次,可以得到最佳投资组合权重的估计后验分布和每项资产的包含概率。图7 b和图7c中报告了将尖峰和板回归应用于标准普尔示例的结果。该方法建议通过排除家得宝和可口可乐以外的所有资产来实施稀疏性。家得宝几乎100%被纳入Gibbs抽样迭代中,而可口可乐是第二大被纳入资产,其纳入概率低于10%。结果与第3.1.4节模拟研究中讨论的常规化方法大致一致。本模拟研究的目的是检验ML方法在降低估计风险方面的性能,与传统方法和各种基准方法相比。使用模拟数据a非常适合研究各种方法的概化误差、估计风险和偏差方差权衡,因为这些测量依赖于重复提取数据。我使用校准到美国股市的模拟数据,以获取与实际数据相似的回报、变量和协方差。我从标准普尔500指数(s&P50 0)-0.8-0.6-0.4-0.2 0.2 0.4 0.6 0.80.050.10.150.20.250.30.350.40.450.5(a)Spike and slabKO AAPL XOM C PFE BA NKE HD FDX CVX(b)包含频率(C)权重估计图7:Spike and Slab投资组合选择。基于2012年8月至2017年12月标普500指数10只股票的月度回报。图7a:分别基于伯努利分布和高斯分布的尖峰和板状先验说明。

32
可人4 在职认证  发表于 2022-6-9 21:53:32
图7b-7c:基于5000次迭代磨合后10000次Gibbs采样的结果。图7b:Home Depo t(HD)几乎100%包含在迭代中,可口可乐(KO)是第二大最频繁的资产,不到10%包含在迭代中。图7c:四种最常见资产的投资组合权重估计直方图。先验s:对于板,平均资产向量设置为θη=0,Zellner的g-先验用于协方差,(Vη)-1=gnX′ηXη,g=1。形状和比例参数设置为a=b=0.1,假设包含资产的前一个不确定因素为πj=0.5。2012-2017年期间,所有j均为πj=0.5,并计算每项资产的月度超额收益。我将这些回报的平均值和协方差分别定义为总体值u和∑。利用这一综合标准普尔指数,我绘制了一个收益数据集,并使用第3节中介绍的所有策略估计了最佳权重。为了评估评估风险,每种策略都是在重复提取训练数据的基础上进行评估,并在样本外以人口值进行评估。上述程序针对不同数量的资产和样本量执行。具体而言,给定多个资产m和多个收益n,I dr aw Ktraining数据集Xk~ N(u,∑)f或k=1,K、 其中,每个Xkis是一个n×m的超额收益矩阵。stra t egy q和数据k的估计最优投资组合权重由^θqk决定。策略q的估计风险(11)近似为^Rq=(θ*-\'θq)\'A(θ*-θq)+tr(ASq)(28),其中θq=KPKk=1^θqkand Sq=K-1PKk=1(^θqk-\'θq)(^θqk)-θq′。上述公式可以研究在重复样本中策略q下估计权重的偏差和方差。此外,我还比较了使用数据集平均样本外夏普比率的方法^sq=KKXk=1u′θqkq^θ′qk∑θqk(29)。每种策略的实施如下。

33
大多数88 在职认证  发表于 2022-6-9 21:53:35
最优种群解(8)直接使用种群矩s计算。使用K=100个种群返回数据集,将传统方法、岭、套索、PCR以及Spike和Slabwas应用于每个数据集。对于Ridge、Lasso和PCR,使用5倍交叉验证来选择p激活参数λ。使用零均值先验θη=0和Zellner的协方差g先验(Vη)实现尖峰和板-1=qn(X′ηXη),g=1。此外,对于所有j,我使用a=b=0.1和非信息资产先验πj=0.5。作为基准,我使用等权策略、具有短期销售限制的最优均值方差组合、最小方差组合和Jorion(1986)提出的经验Bayes。表1中报告了不同样本和投资组合规模的传统战略、ML战略和基准的夏普风险。首先,请注意,在120个月以内的大多数情况下,从传统方法获得的夏普比率远远低于人口值。特别是,使用传统方法对10个资产组合进行评估,得出20个月的夏普比率低至0.25,大大低于总体值0.62。对于50项资产和120个月,夏普比率为1.31,而不是2.05。此外,在资产数量大于观察到的回报数量的所有情况下,由于协方差矩阵退化,传统策略无法使用。这些观察结果证明了传统方法已经很好地证明了这一点。

34
mingdashike22 在职认证  发表于 2022-6-9 21:53:38
正如所料,随着观测次数的增加,传统方法收敛到人口夏普比。第二个观察结果是,所有ML算法对Sharperatio产生的结果相似,远高于60个月前的传统方法,与120个月后的传统方法相似。即使在50项资产和20项回报的高度退化情况下,ML策略都会产生相当高的夏普比率。原因是,在小样本中,资产的平均值和协方差将在整个折叠中高度不稳定,从而使设置高惩罚值成为最佳选择。这导致权重的可变性较小,因此整个数据集的投资组合平均值和标准偏差的可变性也较小。随着观测次数的增多,资产收益的样本均值和协方差将与所有子样本中的总体矩相似。在这种情况下,ML策略发现将惩罚级别设置为低或零是最佳的。因此,随着观察数量的增加,所有依赖交叉验证的ML策略将收敛到传统方法。第三,在大多数情况下,ML策略的表现优于基准策略。等权重策略适用于短样本量和小投资组合,略微优于一些ML算法或it hms。

35
何人来此 在职认证  发表于 2022-6-9 21:53:42
然而,当观测次数增加时,等权重问题就暴露了出来,因为数据包含的信息越来越多,超出了人口时刻,因此,关于最佳20 40 60 120 240 1000样本大小0.10.20.30.40.50.60.70.8经典脊套索PCR尖峰和板(a)估计风险20 40 60 120 240 1000样本大小0.010.020.030.040.050.060.070.08经典脊套索PCR尖峰和板(b)平方偏差20 40 60 120 240 1000样本大小0.10.20.30.40.50.60.70.8经典脊套索PCR尖峰和板(c)方差图8:es的分解估值风险。m=10情况下不同样本量的平均估计风险图(28)。图8b和8c提供了估计风险的偏差方差分解。重量。类似地,没有卖空的均值-方差投资组合对于小样本量非常有效,因为非负性限制提供了权重的下限。然而,随着观察次数的增加,样本可能包含关于负最优权重的精确信息。在这种情况下,非消极限制可能是有害的。最小方差投资组合施加了与投资组合选择无关的约束。大量文献证明,由于难以根据数据估计平均值,该策略在实践中表现良好。我的模拟研究表明,对于中等数量的资产(m=10)和低样本量,它的性能足够好。然而,随着观察次数的增加,忽视均值信息会导致夏普比率相对较差。

36
大多数88 在职认证  发表于 2022-6-9 21:53:45
总的来说,最小方差策略只适用于非退化情况,因为它依赖于协方差的估计。上述三种基准方法具有相同的一般问题,即引入对样本大小变化不变的“HARD”约束。随着观察数量的增加,这些策略中没有一种会接近Sharperatio的人群。相比之下,ML方法更灵活,在估计风险严重的情况下会施加较大的罚款,而在估计风险较低的情况下,则会施加较低的o或零罚款。由于惩罚参数的数据驱动选择,最后一个基准,即经验贝叶斯,可被视为ML策略。事实上,结果表明,随着观测次数的增加,该策略与传统估计值相适应。然而,每个权重都会缩小到最小方差组合,当m>n时,最小方差组合会退化。表2显示,与传统方法相比,所有ML算法的估计风险都显著降低。图8对此结果提供了直观的解释,其中m=10的情况下,估计风险分解为平方偏差和方差。注意,即使在小样本中,传统方法也几乎实现零偏差,但方差太大。ML方法通过接受投资组合权重中的偏差来减少方差,从而降低估计风险。数据集缩写周期m T n SourceStandard&Poor’s s&P-20 1990年1月至10月17日20 334 120 Kaggle。comStandard&Poor’s s&P-50 90年1月至10月17日50 334 120 Kaggle。comStandard&Poor’s s&P-500,2017年1月10日至10月17日,500,94,60 Kaggle。comIndustry Portfolio IND-30 Jan90-Jan18 30 337 120 Kenneth FrenchIndustry Portfolio IND-49 Jan90-Jan18 49 337 120 Kenneth FrenchCryptocurrency C-200 Apr13-Dec17 200 57 10 Kaggle。表3:数据集。

37
mingdashike22 在职认证  发表于 2022-6-9 21:53:48
实证研究中用于评估激励风险的数据。S&Pdata还用于校准第4节中的模拟研究,以及第3.5节应用程序中的估计风险5.1数据和评估策略中的示例。我通过考虑不同的真实世界数据集来评估ML降低估计风险的能力。第一个数据集包含标准普尔500指数的公司回报,该指数基于在纽约证券交易所(NYSE)和纳斯达克上市的美国最大公司500家的市值。我计算了1990年1月至2017年10月期间T=334个观察值的月度超额回报,并考虑了m=20和m=50资产的rando m提取。此外,我考虑在较短的时间内使用全套m=500资产。标准普尔数据提供了一个代表美国市场的风险评估示例。其次,我考虑了两个数据集,其中每项资产都是通过每年根据标准行业分类(SIC)代码将纽约证券交易所、美国证券交易所(AMEX)和纳斯达克的每只股票分配给行业来构建的。这两个数据集分别包含m=30和m=49个行业,我认为每个数据集的T=337个月,从1990年1月到2018年1月。数据来自Kenneth French网站。我预计这些数据中的估计风险不会那么严重,因为随着时间的推移,单个股票的聚合会带来更稳定的回报。最后,我考虑了截至2017年底,m=200种最大加密货币(按市值计算)的回报率,2013年4月至2017年12月的T=57个月内观察到的回报率。由于相对较短的生命周期和大量的资产,预计该数据集中的估计风险较大。

38
可人4 在职认证  发表于 2022-6-9 21:53:51
此外,由于协方差矩阵退化,传统方法和最小方差投资组合等策略无法实现。数据很混乱,2013年第一个月的货币数量从4开始,在整个期间以接近线性的方式增长。我排除了绝对意义上高于500%的大额月度回报。表3总结了所有数据集。我使用“滚动示例”方法来比较给定数据集上的每个策略。具体而言,从t=1开始,使用第n个收益进行估计,使用t=n+1时的第一个样本收益计算投资组合收益。向前一步,估计基于t=2,n+1,使用t=n+2进行评估。在所有时间段继续此过程会产生T- n出o个样本返回。策略q的这些回报率的比率为^sq=^uq^σq(30),其中平均值^uq和标准偏差^σq是根据T- n策略q的样本外收益。为了测试两种给定策略的估计夏普收益率是否在统计上有所不同,我使用了Jobson和K orkie(1981)的方法,并在Memmel(2003)中进行了修正。我使用120、60和10个月的估计窗口n,具体取决于日期,见表3。对于Ridge、Lasso和PCR,除加密货币数据外,我对所有数据集使用五倍交叉验证,其中我使用LEVE-one-o utcross验证。对于尖峰和板法,我使用了与第4.5.2节模拟研究中所列相同的先前规范结果。表4中报告了每个策略和每个数据集的Shar-pe比率。第二列和第三列分别报告了基于随机选择m=20和m=50资产的标准普尔数据的结果。

39
大多数88 在职认证  发表于 2022-6-9 21:53:54
传统均值-方差法(“MV”)得出的夏普比率较低,表明多元化的理论收益受到估计风险的侵蚀。图9a提供了有关该结果的一些详细信息,其中绘制了每个评估月的传统方法样本外平均值。接近样本结束时,资产回报率的巨大变化导致均值和协方差结构都发生变化,从而导致资产头寸较大,因此样本外回报率波动较大。另一方面,Lasso使用的交叉验证程序会在这段时间内产生很高的惩罚,将所有投资组合权重设置为零。在其他情况下,存在较大的估计风险使得套索策略避免投资风险资产。Ridge和PCR的结果相似(虽然不稀疏)。结果是,表4第二列和第三列中的ML策略具有相对较高的夏普比率。此外,由于研究期间市场普遍下跌,等权重策略产生负回报,不卖空(“MV-C”)或忽略均值(“最小方差”)无助于假设两种策略q和l具有样本外投资组合均值^uq、^ul、标准偏差^σq、σ土地协方差^σql。在夏普比率相等的零假设下,检验统计量为^zql=^σl^uq-σqul√ψ、 式中ψ=T-n2^σq^σl- 2^σq^σl^σql+^uq^σl+^ul^σq-^uq^ul^σq^σl^σql.

40
可人4 在职认证  发表于 2022-6-9 21:53:57
基于正态分布IID返回,检验统计量是渐近标准正态的。策略S&P-20 S&P-50 IND-30 IND-49 C-200 S&P-500MV-0.1-0.03 0.06-0.01-机器学习岭0.25 0.24 0.15 0.13 0.31 0.27套索0.24 0.23 0.08 0.10 0.32 0.20PCR 0.21 0.24 0.16 0.08 0.22 0.19尖峰和板0.27 0.16 0.11 0.10-0.06 0.23基准最小方差-0.30-0.30 0.15 0.08-MV-C-0.29-0.29 0.21 0.21 0.15-0.12等权-0.16-0.17 0.18 0.19 0.34 0.12表4:投资组合夏普比率对于经验数据。对于表3中所述的每个策略和每个数据,使用公式(30)计算的平均样本外夏普比率。第5.1节讨论了估算详情。在这种情况下。在统计上,ML策略在夏普比率方面优于所有其他策略,见附录B中的表5。行业投资组合的夏普比率在表4的第四列和第五列中重新报告。原始数据表明,在整个样本中测量的所有行业的回报率均为正。在la r ge,ML优于传统方法,但差别不大。此外,与ML方法相比,无卖空的等权重组合和平均方差组合提供了更高的夏普比率,但差异并不显著。不同方法的类似表现可能是因为每个资产(行业)都是股票的组合,与单个股票的投资组合相比,在一定程度上降低了消化风险。第六列报告了加密货币数据的结果。在to-tal中,在整个分析过程中考虑了200项资产,但在特定的估计窗口中,出现的资产不超过60项。尽管如此,在这种情况下,估计仍具有挑战性,因为这些投资组合的估计期仅为10个月。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-2 10:26