楼主: 可人4
1469 48

[量化金融] 用机器方法降低均值-方差组合的估计风险 [推广有奖]

21
nandehutu2022 在职认证  发表于 2022-6-9 21:52:52
为了说明交叉验证如何缓解问题,假设折叠数为K=2,并且部分资产j的平均值相对较高,第一次折叠的方差相对较低。根据这一倍数,在这项资产中投资正数将是最佳选择。然而,如果第二次折叠显示相反的情况;同一资产的低均值和高方差,正权重将很难推广到第二倍。一般来说,如果资产在各个层面上表现出不稳定的时刻,则在遗漏的层面上会产生较高的样本外均方误差。通过增加λ来减少此类资产的风险敞口将降低估计风险。显然,随着观察次数的增加,整个fo lds的资产动量将趋于稳定,因此asn→ ∞, 最佳惩罚水平将接近零。所以,任何形式(15)的ML算法都将接近传统方法,后者再次接近最优投资组合权重。2.3.3模拟研究:机器学习与传统方法作为传统方法与ML之间差异的一个例子,我使用多元正态分布的m=5 0资产的模拟回报。θ的预期(a)估计*0 10 20 30 40 50 60 70 80 90 100 0.10.20.30.40.50.60.7广义误差偏差平方方差(b)偏差方差0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1标准偏差0.51.52.5人口传统岭估计风险0 5 10 15 20 30 35 40 45 50资产数量0.20.40.60.8广义误差训练与广义误差图4:传统方法与机器学习。图4a:θ的估计值*基于1000次重复提取的训练数据,采用传统方法和岭回归进行5倍交叉验证。

22
kedemingshi 在职认证  发表于 2022-6-9 21:52:55
图4b:对于λ的变化值s,将预期广义误差分解为平方偏差和方差。图4c:在人口时刻评估的样本夏普比率的平均值,类似于图3b。图4d:根据投资组合中的资产数量(范围为1-50),计算和预期的一般化误差。假设除前三项资产外,其他所有资产的超额回报向量u均为零。构建人口协方差∑,使所有资产高度正相关,相关系数为0.95。根据该规范,最佳投资组合θ*显示了在两项第一资产中的大量正投资,以及在其余资产中相对较小的头寸。一般来说,很难估计任何有限样本中的小头寸,忽略或缩小它们可能会提高样本外绩效。我使用n=70个周期,并使用传统方法(16)和一种特殊的ML方法(岭回归)估计最佳港口对账单,详情见第3.1节。基于对训练数据的重新绘制,我从这两种方法中获得了100 0个投资组合权重的估计值。图4a显示了两种蟑螂第一种资产的所有1000个重量估计值的柱状图。对于岭回归,通过使用5倍交叉验证获得每个估计值,以获得最佳惩罚水平。显然,ML方法在θ的估计中引入了偏差*, 但减少了差异。图4b绘制了岭回归的预期泛化因子,以获得其针对不同调整参数λ值的偏差方差分解。传统方法显示为沿纵轴的红点,对应于λ=0的情况。

23
mingdashike22 在职认证  发表于 2022-6-9 21:52:59
增加调谐参数会导致以增加偏差(降低返回)为代价的方差减小,但对于低于垂直线指示的某个阈值的惩罚值,总体误差会减小。阈值报告为所有训练集的平均最优lλ值。图4c说明了每种方法的估计风险,类似于图3b中的示意图。在这项研究中,与传统方法相比,ML方法将估计风险降低了70%。最佳子集思想如图4d所示,其中传统方法的预期泛化误差与所含资产数量的样本均方误差(提取误差)一起绘制。资产不足的投资组合将很难推广。增加资产数量可以减少泛化错误,但包含太多资产会导致过度拟合和不良泛化。具有50项资产的传统方法显示出最低的训练误差,因此样本夏普比率最高,但这种比率在样本外是不可持续的。3机器学习算法在本节中,我将讨论用于投资组合估计的“off-the-shelf”ML算法。在第3.1节中,我通过将现有收缩方法与ML文学联系起来,对其进行了新的阐释。我在第3.2节和第3.3.3.1节中介绍了投资组合估计的新工具Ridge和Lasso回归Ridge Regression是(15)的一种特例,通过将惩罚指定为P(θ)=Pmj=1θj。惩罚是连续的和可区分的,导致投资组合权重的m解是闭合的。用二次罚函数求解(15)得到岭回归估计量^θR=(X′X+λI)-1X′y(18),相对权重ωR=θR/1′θR。

24
kedemingshi 在职认证  发表于 2022-6-9 21:53:03
根据标准结果,如Efron和Hastie(2016),山脊退化解(18)与传统方法(16)等效,具有调整后的协方差矩阵∑r=∑+λnI。因此,岭回归使资产样本均值保持不变,但将每个资产的变量增加了一个常量λ/n。紧接着,tangencyportfolioωR也将基于样本均值和调整后的协方差矩阵∑R。利用岭回归和O LS之间众所周知的关系,我建立了以下结果。提案3。与传统的惩罚值λ估计方法相比,岭估计产生的估计风险更低∈ (0,λ),其中λ=2F*/Pmj=1(θ*j) 。命题3提供了具有实际意义的直观理论结果。如果最佳端口的olio具有低回报和高标准差(F*较大)和/或如果选择的主要投资组合多样化(低PMJ=1(θ*j) ),岭回归很可能得到一个惩罚值,在估计风险方面优于传统方法。套索回归提供了一种不同的缩减资产头寸的方法,它将罚金指定为P(θ)=Pmj=1 |θj |。收缩的性质不像岭回归那样直接,因为惩罚是非smoot h,权重的m解没有闭合。但是,非平滑性为Lasso提供了一个资源选择属性。在实践中,Lasso可能会将几个θj设置为零,以便估计的投资组合将基于SSET的一小部分。因此,Lasso是一种计算成本低廉的方法,本质上接近于最佳子集选择。

25
大多数88 在职认证  发表于 2022-6-9 21:53:07
在正交回报(X′X=I)的情况下,传统方法与Ridge和Lasso^θq,j之间存在简单的关系=^θj/(1+λ)如果脊形设计(^θj)(|^θj |- λ) +如果Lasso(19),其中符号(^θj)用于表示传统估计的符号和(|θj|-λ) +输出μ和μ∑Rinto(8)给出(μ∑R+μ|u′)-1u′r=(λ∑+λnI+u′)-1^u′r=(nX′X+λnI)-1nX′1′r=(X′X+λI)-1X′y=^θR.0 102 247 455 764 1242 2029 3478 6692 17400-0.3-0.2-0.10.10.20.30.40.50.6KOAAPLXOMCPFEBANKEHDFDXCVX(a)Ridge0 7 21 65 206 650 2056-0.4-0.20.20.40.60.8KOAAPLXOMCPFEBANKEHDFDXCVX(b)Lasso10 8 8 6 5 4组件数量-0.4-0.3-0.2-0.10.20.20.20.2 30.40.50.6KOAAPLXOMCPFEBANKEHDFDXCVX(c)PCR图5:投资组合正则化路径。正则化路径基于2012年8月至2017年12月标准普尔500指数中10支股票的月度回报率计算。图5 a绘制了岭回归的连续正则化路径。图5b显示了套索回归的情况,其中一些资产被截断为零。图5c显示了主成分回归的正则化路径,其中惩罚是包含的主成分数。在每种情况下,垂直线是通过对训练数据进行5倍交叉验证选择的惩罚的最佳值。股票包括可口可乐(KO)、苹果(AAPL)、埃克森美孚(XOM)、花旗集团(C)、普惠(PFE)、京东方(BA)、耐克(NKE)、家得宝(HD)、联邦快递(FDX)和雪佛龙(CVX)。差异θj- λ,如果为正,否则为零。在这两种情况下,传统的权重估计值都缩小到零,从而对不同的资产提供了更保守的敞口。对于岭回归,权重缩小了相同的因子,而对于Lasso回归,每个资产头寸减少了一个常量,对于λ与传统估计值相比足够大的资产,截断为零。

26
mingdashike22 在职认证  发表于 2022-6-9 21:53:12
换句话说,岭回归将资产头寸收缩到零,但Lasso在许多情况下会将资产头寸一直收缩到零。因此,如果若干资产的最优权重为零,套索的表现往往会优于里奇,而如果最优投资组合高度多样化,里奇可能是最佳选择。里奇和套索收缩的性质分别如图5a和5b所示。每种方法均适用于2012-2017年共61个月观察到的标普500指数中m=10支股票的月回报率。这些图报告了调整参数λ的var值的估计相对投资组合权重。在每种情况下,传统方法的估计值都与λ=0的值相对应。岭回归估计的投资组合权重从传统估计开始,沿着一条连续路径,随着λ的增加,向等权重移动。垂直线表示基于5倍交叉验证选择的惩罚的最佳值。对于套索,收缩率相似,但不是连续的。然而,对于Lasso而言,一半的资产(花旗集团、埃克森美孚、雪佛龙、联邦快递和P fizer)估计在最佳惩罚水平下的投资组合权重等于零。3.2主成分回归主成分回归(PCR)为估计风险问题提供了不同的方法。我们可以将X中的全套资产视为从一些底层低维数据生成过程中生成的样本,例如基于宏观经济基本面或行业特定因素。PCR的思想是将投资组合权重建立在全套资产的基础上,但仅限于这些资产中可归因于潜在因素的变化。

27
kedemingshi 在职认证  发表于 2022-6-9 21:53:15
低维分量汇总了回报数据中的大部分var,但由于维数减少,估计风险较小。可以看出,找到数据的λ维子空间来解释大多数原始回报数据(即最大化回报数据的方差)与获得数据的第一个λ特征向量或主成分是一样的。然后,PCR通过使用主成分将每个资产投影到低维空间,然后对减少的数据进行线性回归以获得资产权重。PCR可按如下方式实施。设P表示m×m矩阵,X的主分量存储在每列中。设Pλ表示m×λ矩阵,其中仅包括第一个λ主分量。使用Xλ=XPλ将每个资产投影到低维空间中,港口对账单的低维表示是从γ=(X′λXλ)中获得的-1X′λy(20),其中γ是主成分权重的λ×1向量,y=1'r。然后将最优投资组合权重估计为^θP=Pλγ。与第3.1节中讨论的正则化方法类似,可以基于交叉验证选择主成分λ的数量。PCR与(15)相关如下。通过将资产位置建立在顶部λpr初始分量的基础上,这意味着解将与底部m正交- λ主成分。因此,PCR使用惩罚P(θ)=P′-λθ=0,其中P-λ表示底部m- λ特征向量。继续标准普尔50指数的说明,图6中绘制了回报数据的两个第一主成分与部分股票的回报率。

28
可人4 在职认证  发表于 2022-6-9 21:53:19
有明确迹象表明,苹果、耐克、埃克森美孚和雪佛龙的第一主成分与回报之间存在正相关关系,而石油公司的回报与第二主成分之间存在负相关关系。PCR的正则化pathof可能以类似于Ridge和Lasso的方式导出。图5c显示了组合权重的变化,将pr初始组件的数量从最大的10个减少到只有一个组件。使用5倍交叉方差分析法,苹果和耐克10-5 0 5 10PC1得分-20-10AAPL-10-5 0 5 10PC1得分-10NKE-4-2 0 2 4PC2得分-20-10-4-2 0 2 4PC2得分-10(a)苹果和耐克10-5 0 5 10PC1得分-20-10XOM-10-5 0 5 10PC1得分-20-10VX-4-2 0 2 4PC2得分-20-10-4-2 0 2 4PC2得分-20-10(b)埃克森美孚和雪佛龙6:主成分分析。2012年8月至2017年12月标普500指数10只股票月度收益的主成分分析。图e 6a绘制了第一和第二主成分得分(Xλ的第一和第二c列)与苹果(AAPL)和耐克(NKE)的返回数据。图6b显示了E xxon(XOM)和Chevron(CVX)的类似图。在这种情况下,主成分的最佳数量是2。有了两个主要的信息成分,所有资产的相对投资组合权重都是相似的,范围从接近零到0.2.3.3尖峰和板回归。在贝叶斯背景下,在回归模型中引入稀疏性的一种常见方法是使用尖峰和板先验。该方法可被视为一种贝叶斯方法,用于逼近第2.3节中讨论的最佳子集问题。最佳子集思想是使用m维向量η实现的,其中,如果θj6=0,每个元素ηj=1,如果θj=0,每个元素ηj=0。

29
mingdashike22 在职认证  发表于 2022-6-9 21:53:23
该向量总结了portfo lio中包含的资产。目标是估计η的后验分布和相应的资产位置θη,其中下标表示投资组合权重向量仅包括ηj=1的资产。回归模型的可能性由N(Xηθη,φI)给出,其中,除参数θ和φ外,资产包含向量η未知。尖峰和板prio r isp(θ,φ,η)=p(θη|φ,η)p(φ|η)p(η)(21),其中p(.)用作密度的通用表示法。资产包含向量p(η)的优先级为“尖峰”a,p(θη|φ,η)为“Sla b”。通常认为,如米切尔和波尚(1988年)、乔治和麦卡洛赫(1997年)以及斯科特和瓦里安(2014年)对尖峰和板法进行了解释。尖峰η的伯努利分布~mYj=1πηjj(1- πj)1-ηj(22),其中πj表示资产j的包含概率。统一先验假设每个资产被包含或排除的概率相等,即每个j的πj=1/2。在某些设置中,可以通过分别设置πj=0或πj=1来指定排除或包括资产来更改此规格。另一种选择是指定预期的投资组合规模k,然后取πj=k/m。我将在本文中使用统一优先级。其余的优先级规定为θη|φ,η~ N(θη,φVη)(23)φ|η~ G-1(a,b)(24),其中N是具有先验平均值θη和方差φVη的正态分布,G-1形状a和比例b的反向伽马分布。图7a中说明了先验伽马分布,其中尖峰确保概率质量为零,而板将概率质量分布到一组概率权重值中。使用可能性,(22)、(23)和(24)可以显示,参见例如。

30
mingdashike22 在职认证  发表于 2022-6-9 21:53:26
Murphy(2012),θ和φ的后验值取决于包含的资产η,由θη|φ,η,y给出~ N(θη,φVη)和φ|η,y~ G-1(a,b)(25),其中后验资产平均值为θη=Vη(X′ηy+(Vη)-1θη),方差为Vη=(X′ηXη+(Vη)-1)-1、后部形状为a=a+n,标度为b=b+(y′y+θ′η(Vη))-1θη- θ′η(Vη)-1θη). 综上所述,积分θη和φ给出了包含变量p(η| y)的后验值的闭合表达式∝(2π)n/2 | Vη| 1/2 | Vη| 1/2Γ(a)Γ(a)(b)a(b)amYj=1πηjj(1- πj)1-ηj(26)使用包括资产的传统方法估计,^θη=(X′ηXη)-1X′ηy和zellner的g-先验(Vη)-1=gnX′ηXη直接得出θη=nn+g^θη+gn+gθη(27)。因此,后验平均值是传统估计值和先验估计值的加权组合,仅以包含的资产为条件。算法1 Spike and Slab po r t folio selection1:设置起始值η(0)=(1,…,1)2:对于Gibbs采样迭代i=1,NSetη(i)← η(i-1).对于每个j=1,如果u<h(ηj=1)/(h(ηj=1)+h(ηj=0)),则m为随机序集η(i)j=1,其中h(ηj=x)=p(ηj=x,η(i)-j | y)和u~ 均匀(0,1)。从p(φ|η(i),y)中画出(φ)(i)。从p(θη|(φ)(i),η(i),y)中画出θ(i)η。尖峰和板回归使用Gibbs抽样实现,如算法1所述。作为起点,假设所有资产都包含在投资组合中。从该起始值开始,(26)可用于计算所含资产的后验值。对于每个资产j,在包含(ηj=1)和排除(ηj=0)之间切换,给出了后验包含密度的两种评估,可用于计算资产包含概率。在0和1之间绘制一个统一的随机数,然后确定资产应该包含还是排除,并相应地更新包含向量η。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-2 10:26