楼主: 何人来此
1742 55

[量化金融] 高维估计、基础资产和自适应多因素 [推广有奖]

31
mingdashike22 在职认证  发表于 2022-6-10 00:51:44
债券2 1 0 0 0 3 1 0 0 0 0 0 3 0 1 0 33 1总债券市场5 0 1 17 2 14 0 0 0 0 1 0 0 0 3 0 2稀有金属1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1所有上限股票1 1 2 0 0 0 0 0 0 0 0 0 0 0 0 0 1替代能源股票3 2 0 2 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 1 0 1 0 1 0 1 0 0 1 0 0 1 0 0 1 0 0 0 1 0 0 1 0 0 0亚太地区股票1 0 0 0 0 1 0 0 0 1 3 0 0 0 0 0 6 1 0 1 0 1 2建筑&构造0 1 0 71 1 0 0 6 0 0 0 0 0 1 0 0 1社区生产者股票0 0 0 1 0 0 0 0 0 0 0 1 0 0 0消费者Discrtnry。股票1 1 0 0 0 1 1 0 0 0 0 11 0 0 0 0 2 0 0 1消费类大宗商品股票1 1 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0金融类股票6 19 18 3 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2外国大盘股股票1 0 2 0 0 0 0 0 1全球股票1 0 3 1 0 0 0 0 0 0 0 0 0 1健康与生物科技股票1 5 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 17 0 0 0 5 0 0 4大盘股增长股票0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 6 0 0 0 0 0 0 1 0 0 0 0 0 2材料1个0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0技术股票3 1 0 0 0 1 3 0 0 0 0 0 0 0 1 0 0 0 2交通股票0 0 0 3 0 1 14 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0。5.1截距测试本节提供零截距测试。使用Fama-French 5因子模型作为比较,图3比较了我们的基础资产组合自适应多因子(AMF)模型和Fama-French 5因子(FF5)模型之间的截距测试p值。如图所示,FF5模型中有6.33%(高于5%)的证券具有显著的截获,而AMF中有4.12%(低于5%)的证券具有显著的α。

32
大多数88 在职认证  发表于 2022-6-10 00:51:46
这可能表明AMF模型比FF5模型更具洞察力,因为AMF揭示了更多的相关因素,使截距接近0。由于我们在CRSP数据库中复制了约5000只股票的这一测试,因此控制错误发现率(FDR)非常重要,因为即使存在零截距,复制5000个测试也会有约5%的测试显示错误显著性。我们使用Benjamini-Hochberg(BH)程序【1】和Benjamini-Hochberg-Yekutieli(BHY)程序【2】调整错误发现率。BH方法不考虑测试之间的相关性,而BHY方法考虑。在我们的例子中,每个测试都是针对单个股票进行的,这些股票可能具有相关性。因此,BHY方法在这里更合适。Chordia et al.(2017)[7]建议应采用错误发现比例(FDP)方法,而不是错误发现率程序。BH方法仅控制FDP的预期值,而FDP直接控制家庭误差率。还有一个测试值得一提,那就是GRS测试。[15]中的GRS测试通常是测试拦截的一个很好的程序。然而,这两个测试在高维回归环境中并不适用,就像我们的情况一样。具体而言,这些测试隐含地基于以下假设,即所有公司仅与相同的一小部分基础资产相关。这里的“小”意味着基本集合比观测要少得多。我们的设置更为一般,因为我们的基础资产可能多于观察值,虽然每个公司只与少量基础资产相关,但不同的公司可能与不同的基础资产相关。GRS无法处理设置。如前所述,表3显示,多因素模型中4.12%的股票的截距t检验值小于0.05。

33
能者818 在职认证  发表于 2022-6-10 00:51:50
而在FF5模型中,该百分比为6.33%。在使用BHY方法控制错误发现率后,我们可以看到两个模型的q值(接受此拒绝为真实发现所需的最小错误发现率,请参见[43])几乎为1,表明存在nosigni ficant非零截获。截获测试中显示的所有重要信息都可能是错误发现。这证明这两种模型都符合“大时间尺度”安全回报的行为。图3:Fama-French 5因子(FF5)模型和自适应多因子(AMF)模型截距测试p值的比较。股票价值范围百分比(%)FF5 p-val AMF p-val FF5 FDR q-val AMF FDR q-val0-0.05 6.33 4.12 0.00 0.000.05-0.9 84.87.22 0.02 0.000.9-1 8.83 8.67 99.98 100.00表3:控制错误发现率的截距测试。第一列是其他列中列出的p值或q值的值范围。其他4列与FF5模型和AMF模型的p值和错误发现率(FDR)q值相关。对于每一列,我们列出了价值在每个价值范围内的公司的百分比。很明显,几乎所有对零阿尔法的否定都是错误的发现。5.2样本内和样本外拟合优度本节测试以查看哪个模型最适合数据。图4比较了调整后的R在AMF和FF5模型之间的分布(参见[44])。如前所述,AMF模型具有更强的解释力。AMF模型的平均调整RF0.348,而FF5模型的平均调整RF0.234。与FF5相比,AMF模型将调整后的RB增加49%。接下来,我们对每种证券进行F检验,以表明AMF和FF5模型的优度之间存在显著差异。

34
kedemingshi 在职认证  发表于 2022-6-10 00:51:53
由于我们需要对F检验进行嵌套比较,因此我们比较FF5和GIBS+FF5之间的结果(如果未选择任何FF5因素,则将FF5因素返回GIBS进行拟合)。在我们的例子中,FF5是受限模型,具有p- r自由度和残差平方和SSR,其中r=5。AMF是完整型号,具有- r- rdegrees of freedom(其中ris是除FF5外选择的基础资产数量)和平方残差SSF之和。在FF5是真实模型的无效假设下,我们有FOBS=(SSR- SSF)/rSSF/(p- r- r) H类~ Fr,p-r-r、 (26)共有4881只股票。对于其中的1459只股票(30%),GIBS算法只选择了一些FF5因子,因此对于这些股票,GIBS+FF5不会提供额外信息。然而,对于其中的3422个(70%),GIBS算法确实在FF5因子之外选择了ETF。对于这些股票,我们进行F检验,以检查两个模型之间的差异是否显著,换句话说,AMF是否提供了显著更好的信息。如表4所示,对于99.24%的股票,AMF模型优于FF5模型。同样,测试错误发现率(FDR)也很重要。表4包含使用BH方法和BHY方法的Pvalue和错误发现率q值。如前所述,对于大多数股票,即使考虑到错误发现率,AMF也明显优于FF5模型。对于99.24%的股票,AMF模型在0.05的显著水平上优于FF5。在使用严格的BHY方法(包括测试之间的相关性)考虑虚假发现率后,仍有87.93%的股票q值小于0.05。即使我们将错误发现率q值显著性水平调整为0.01,仍有74.08%的股票显示出显著差异。

35
能者818 在职认证  发表于 2022-6-10 00:51:56
因此,这有力地证明了多因素模型在刻画证券收益方面的优越性。图4:Fama-French 5因子(FF5)模型和自适应多因子(AMF)模型的调整后RF值范围股票SP值BH q值BHY q值的百分比比较0~ 0.01 93.19% 92.78% 74.08%0 ~ 0.05(显著)99.24%99.24%87.93%0.05~ 1(无显著性)0.76%0.76%12.07%表4:控制错误发现率的F检验。我们进行F测试,并报告每个公司的itsp值和q值。第一列是其他列中列出的p值或Q值的值范围。在其他三列中,我们报告了在每个价值范围内具有p值、BH方法q值和BHY方法q值的公司的百分比。该表显示,对于大多数公司来说,IT优度的增加非常显著。除了样本内拟合优度结果外,我们还比较了预测时间段内FF5和AMF模型的样本外拟合优度。我们使用这两个模型预测下周的收益率,并报告预测的样本外Rf(见表5)。样本外R(见[6])用于测量模型的预测精度。FF5的样本外Rf为0.209,而AMF的样本外Rf为0.331。也就是说,与FF5模型相比,AMF模型将样本外RB增加了58%。AMF模型通过使用更少的因子进行更准确的预测,显示了其优越的性能,这也是反对过度拟合的有力证据。与FF5.5.3稳健性测试相比,AMF模型提供了更多的见解。作为稳健性测试,对于截获率不为零的证券,我们测试了基础资产隐含多因素模型,以了解积极的阿尔法交易策略是否会产生比特率机会。

36
何人来此 在职认证  发表于 2022-6-10 00:52:00
为了构建积极的阿尔法交易策略,我们使用2017年的数据作为样本外时段。回想一下,之前的分析是在2014年至2016年期间进行的。如上所述,我们使用截至2016年最后一周的数据拟合AMF模型。然后,我们按照字母从正到负对证券进行排名。我们选取阿尔法显著(p-val小于0.05)为正的前50%的投资者,形成一个初始资本为1美元的仅长期等重投资组合。类似地,将那些字母值为负的投资者中最底层的50%作为投资组合,形成一个仅做空且权重相等的投资组合,初始资本为-1美元。然后,在2017年的每一周,我们通过重新调整AMF模型并重复相同的结构来更新这两个投资组合。将只做多和只做空的投资组合组合形成一个初始投资为0的投资组合。如果Alpha代表套利机会,那么组合的多头和短头投资组合的价值变化在一定时期内将始终为非负且严格为正。套利测试的结果如图5和图6所示。如图所示,0-投资组合的价值变化在0的两侧随机波动。这否定了积极阿尔法交易策略是套利机会的可能性。因此,在控制错误发现率后,此鲁棒性测试证实了我们之前的截获测试结果。虽然没有报道,但我们也研究了10%到40%之间的不同分位数,它们给出了类似的结果。图5:纯多头和纯空头投资组合的回报图6:0-投资组合的价值变化百分比6与替代方法的比较6.1 Fama French 5因素是否过度匹配?我们首先测试Fama-French 5因子(FF5)是否超过数据中的噪声。这可以通过估算“GIBS+FF5”模型来实现。

37
可人4 在职认证  发表于 2022-6-10 00:52:03
该模型与GIBS非常相似,只是它包含了最后一步选择的Fama French 5因素。也就是说,如果GIBS未选择任何FF5因素,我们将其添加回所选的基本资产集,并使用这组基本资产来拟合和预测回报。通过比较GIBS+FF5模型和GIBS模型的样本内调整和样本外R(见[6]),我们可以确定FF5因子是否过拟合。取样器外(见[6])用于测量模型预测的准确性。令人惊讶的是,结果显示,FF5中的一些因素是过度拟合的!如表5所示,与我们的GIBS模型相比,GIBS+FF5实现了更好的样本内调整R,具有更重要的基础资产,但给出的样本外R更差。这表明GIBS未选择的FF5因子是“错误发现”——它们超过了培训数据,但在预测方面做得很差。因此,如果GIBS未选择这些FF5系数,则不应将其用于公司。表5不仅通过比较样本Rof GIBS和FF5模型的样本内调整随机数,提供了GIBS优于FF5的证据,还通过比较样本内调整随机数Rof GIBS和样本外GIBS+FF5.6.2与弹性净值的比较,表明了FF5的过度拟合。由于存在大量相关ETF,自然会使用岭,套索和弹性网(E-Net)方法(Zou和Hastie(2005)[61])。E-Net类似于岭回归对多重共线性的处理,带有一个额外的调整(岭)参数α,用于调整相关性。我们将GIBS、LASSO、RIDGE和Net与不同的αs进行比较。每个模型中的稀疏诱导参数λ是通过通常的10倍交叉验证选择的(Kohavi等人(1995)[27])。比较结果如表5所示。

38
kedemingshi 在职认证  发表于 2022-6-10 00:52:06
图7显示了通过每个方法选择的基础资产数量的分布。从表5可以看出,GIBS模型比FF5模型具有更好的预测能力。与FF5相比,GIBS模型将样本外RB增加了58%。在所有模型中,GIBS的样本外R最高,这支持了其他模型(LASSO、RIDGE、E-Net等)调整后的更好样本是由于过度拟合。此外,从表5和图7可以看出,GIBS选择的因子数量最少。型号选择标志。在样本调整中。样本RFF5 5.0 1.8 0.234(00%)、0.209(00%)、GIBS 3.4 2.2 0.347(49%)、0.331(58%)、GIBS+FF5 6.6 2.5 0.352(50%)、0.213(02%)、LASSO 13.4 NA 0.372(59%)、0.294(40%)E-Net(α=0.75)15.7 NA 0.370(58%)、0.296(41%)E-Net(α=0.50)17.3 NA 0.364(56%)、0.300(43%)-Net(α=0.25)24.8 NA 0.344(47%)0.225(08%)Ridge 186.0 NA NA 0.329(57%)。表5:替代方法对比表。“选择”列给出了模型所选因素的平均计数。“签名”列给出了模型选择的重要因素的平均计数。“样本调整R”列给出了每个模型的样本调整R的平均值,括号中的百分比是与FF5模型相比的百分比变化。“样本外R”列给出了每个型号的样本外R的平均值,括号中的百分比是与FF5型号相比的百分比变化。图7:不同方法交叉验证选择的基础资产数量比较。套索的λ通常通过交叉验证来选择,利用该λ,模型选择13.4个因子的平均值,如表5所示。然而,交叉验证选择的大多数因子都是“假阳性”。因此,我们不使用交叉验证,而是使用“1se规则”,硬阈值最多为20个基本资产。

39
大多数88 在职认证  发表于 2022-6-10 00:52:10
“1se规则”使用最大的λ,使得交叉验证误差在交叉验证实现的最小误差的一个标准误差范围内。换言之,λ1定义了最正则的模型,使得误差在交叉验证获得的最小误差的一个标准误差范围内(见[14,39,46])。为了进一步避免过度拟合,我们加入了一个阈值,即每家公司的基础资产不能超过20个。如表5所示,我们在GIBS中使用的方法运行良好,并达到了最佳预测能力。与交叉验证Lasso相比,GIBS的性能优越的原因是交叉验证往往超过了极限,尤其是当样本量很小,或者数据不完全独立且分布不均匀时。此外,我们的GIBS结果既稳定又可解释。我们结合原型聚类和LASSO的改进版本选择降维技术,是因为我们希望从一组强相关ETF中选择一组稀疏且可解释的基础资产,以解释资产回报率之间的横截面变化。这两个步骤被用作模型选择工具来识别基础资产,我们随后使用OLS估计模型系数。在未来的研究中,可能会设计一种更为综合的方法,将模型选择和估计步骤结合起来。使用原型聚类的动机有两个方面。首先,它可以用来派生ETF的集群结构,以便删除冗余的ETF。这减少了相关性并验证了套索的使用。其次,该方法对原型进行了精确的解释,这对于我们对基础资产的解释很重要。

40
mingdashike22 在职认证  发表于 2022-6-10 00:52:12
处理经验资产模型的传统方法是基于基础资产(X矩阵)的方差分解,如主成分分析(PCA)方法。最近,有一些现代统计方法在这些传统方法中引入了稀疏性和高维设置(seeZou et al.(2006)[62])。然而,正如我们在导言中所述,由于这些方法在解释基础资产时存在困难,因此它们对于基础资产模型不是最优的。此外,在确定基础资产时,重要的是相关性,而不是方差本身。因此,在这种情况下,专注于找出方差最大的旋转(如PCA)的方法不是最优的。相反,我们在原型聚类步骤中使用相关性作为度量,这可以对候选基础资产进行更清晰的解释和直接的分析,而不是对基础集的线性组合。因此,我们认为在这种情况下,原型聚类比主成分分析更可取。对于未来的工作,可能会使用现代的模型选择和推理方法。对于高维模型,很难获得有效的p值。这部分是因为,建立高维模型通常需要惩罚和复杂的估计程序,这意味着很难描述此类估计量的分布特征。对于稀疏情况下的统计检验,文献中出现了许多新方法。一种替代方法是Tibshirani等人(2016)提出的后选择程序【47】。另一种为高维模型构建frequentistpp值和置信区间的方法使用了一系列文章[48、24、51]中提出的去偏思想。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-8 14:09