楼主: 能者818
1209 24

[量化金融] 基于主成分的股价预测 [推广有奖]

11
可人4 在职认证  发表于 2022-6-9 18:42:19
对于给定的(估计值)协方差矩阵,对不同的Ms和不同数量的主特征值L实施我们的降维技术。本节中的图表仅用于说明。下一节将更全面地评估这些方法的性能。本节中使用的数据被极大化并居中,稍后将详细描述。为了说明这些方法的性能,我们计算了所有估计天数内的MSE值之和。我们使用通用电气公司5000天的价格数据来计算本节中所示的MSE值。图2显示了27个不同长度的观察向量M(从20到800)在所有估计天数内的MSE值与L值的对比。它得出1015202530天484950515253545556价格图1:预测M+1到N天的价格,实际价格-GB–o RD–*结果表明,MSE值对L的值并不敏感。正如我们所看到的,最初,对于较小的L值,MSE值迅速下降,但随后保持相对恒定,因此如果我们对条件数有特定的约束,那么通过选择降维子空间,我们在MSE方面不会损失太多,这会导致更好的条件问题。图3显示了我们的降维方法在所有天数内的MSE之和,条件数的上限为∑ww。M、观测向量长度和MSE值之间存在一个偏差。一般来说,通过增加M,每次观测中可以获得更多的信息,从而提高预测性能。对于M的每一个长度,根据∑ww的条件数的不同约束获取forMSE的值。图3中的上图对应于无条件方法对应的MSE值。

12
何人来此 在职认证  发表于 2022-6-9 18:42:22
底部的曲线图对应于GauessBayes的MSE值,表示最佳性能。其他4个批次对应于我们的降维方法,在∑wwcondition编号上有4个不同的上限,从10到10。我们应该指出,这些图中使用的∑y y矩阵的条件数非常小,为0 100 200 300 400 l0.0160.01650.0170.01750.0180.01850.019MSEM=20M=800图2:不同M的归一化域中的MSE与L,高斯贝叶斯的计算被认为是可靠的。在实际情况下,一般情况下并非如此。对于条件数的所有不同限制,降维估计方法在MSE方面的性能接近高斯-贝叶斯估计,直到某一点。在M=200后,或者换句话说,大约7个月后,降维方法的值在某些情况下开始偏离高斯-贝叶斯。顶部的第一行是降维方法的最佳性能,条件数∑ww小于10,约为条件数∑y y的1000倍。然而,在这种情况下,在大约M=360后,降维估计器的性能开始恶化。这说明,选择适当的M值很重要。这一观察结果的一个可能解释是,当我们对条件数进行一些约束时,我们实际上限制了L的值,通过增加M,在某一点之后,我们主要增加噪声,MSE值变得更差。回想一下,L表示对角矩阵S所需的特征值数量,以表示x中携带的大部分信息。

13
能者818 在职认证  发表于 2022-6-9 18:42:25
图4显示了不同Ms的最佳MSE对应的L值,受90 180 270 360 450 540 630 720M0.0150.0160.0170.0180.019MSECN<105CN<106CN<104CN<103影响。图3:最佳MSE受条件编号的不同上限影响,无。。。GB–o RD–*条件编号的不同限制。随着条件数上限的增加,MSE的值随着M的增加而增加,我们需要一个更大的子空间,更大的L来提取信息。然而,如图4中底部的三个曲线图所示,在某个点之后,最佳L的值几乎是恒定的,这与图2.3一致。实证方法和结果在本节中,我们描述了如何基于归一化数据集估计协方差矩阵,并使用实证数据评估了我们方法的性能。3.1. 一般设置假设我们有K个向量数据样本,每个样本的长度为N,其中N<K。将这些行向量称为x,x。。。,xK,其中每个xi∈ RN(i=1,…,K)是长度为N的行向量:xi=hxi1xi2··xiNi。(22)90 180 270 360 450 540 630 720M010020300400500600700最佳LCN<106CN<105CN<104CN<103图4:最佳L受条件数的不同限制。我们假设向量x,x,xKare来自相同的底层分布。我们可以将这些向量叠加为K×N矩阵的行:X=xx···x1Nxx··x2N··········xK1xK2··xKN.让M≤ 假设我们得到一个向量y∈ rm表示向量的前M个数据点,我们认为这些数据点来自相同的分布x,x,xK。同样,这些M个数据点代表了过去M个连续交易日内公司股票的日终价格。设z为下一个N的价格- 未来M天。

14
kedemingshi 在职认证  发表于 2022-6-9 18:42:28
我们希望从y中估计z。因为向量xi是一个多元随机向量,可以按照xi=hyizii的形式进行划分,(23),其中yi的长度为M,zi的长度为N- M,相应地,数据矩阵xx可分为两个子矩阵Y和Z,如下所示:hXi=hY Zi。我们可以将Y视为由历史数据样本组成的数据矩阵,将z视为由相应的未来价格值组成的数据矩阵。3.2. 规范化数据并将其居中在股票价格数据的情况下,向量x,x,XK可能来自几年或更长时间的价格。如果是这样的话,那么从相同的分布中提取的基本假设可能不成立,因为美元的价值随着时间的推移而变化,这是通货膨胀的结果。为了克服这一问题,应采用比例调整方法,有意义地使价格正常化。这里介绍了一种这样的方法。假设ti=[ti1,ti2,…,tiN]是N个连续交易日内“原始”(未加工)股票价格的向量。假设Q≤ N也被给出。然后我们应用以下归一化来获得xi:xi=titi(Q)。(24)这种规范化的解释是,xivector包含的股票价格是第Qth天价值的一部分,如果我们认为第1天的股票价格模式,…,则这种规范化是有意义的,N来自相同的分布。请注意,xi(Q)=1。为了应用基于PCA的方法,我们假设向量x,x,xKare从相同的基础分布中得出,平均值‘x’等于零。然而,由于xi代表价格值,一般来说,平均值不是零。平均值x可以通过平均向量xi来估计∈ RN(i=1,…,K),(R)x=KKXi=1xi,(25),然后从每个xito中心数据中扣除该平均向量。4.

15
mingdashike22 在职认证  发表于 2022-6-9 18:42:31
实验通用电气公司(GE)1966年至2015年的每日历史价格数据从Finance下载。雅虎。通用域名格式。如前所述,将该数据集转换为Hankel矩阵(如下所述),然后居中并归一化以构建数据矩阵。本研究还包括来自不同行业的其他公司的股票价格估计结果,其中包括:埃克森美孚公司(XOM)、沃尔玛百货公司(WMT)、英特尔公司(INTC)和卡特彼勒公司(CAT)。SPDR标准普尔500 ETF(SPY)也包括在内,该基金是继标准普尔500指数之后的一只基金。这些公司的观察数量可能少于GE的观察数量,因为历史价格数据较少。在本文中,我们关注的是短期预测,也就是几天。我们比较了基于样本外性能的估计方法。4.1. 构建数据矩阵将每日股价数据转换为一个矩阵,其中包含K行向量数据样本,每个样本长度为N。我们将K行(K个样本)叠加在一个称为汉克尔矩阵的大矩阵中,每一行都比前一行偏移一次。更准确地说,该问题的Hankel矩阵采用以下格式构造:xx。。。xK公司=P(1)P(2)··P(N)P(2)P(3)··P(N+1)··P(K)P(K+1)··P(K)P(K+1)··P(K+N- 1),其中P(i)表示第i天的价格。这是我们的数据矩阵X,在归一化和居中之前。如前所述,我们首先将每行归一化x(Q),然后从每行中减去平均向量'x。

16
kedemingshi 在职认证  发表于 2022-6-9 18:42:34
运行模拟后,为了利用预测值,我们应该加回平均向量xN-M(最后N- M从M+1到N天的'x)的组成部分,并将结果乘以x(Q)以返回实际股价。我们测试了MSE和估计方差的Q间期的不同值。为了本研究的目的,我们选择Seq=M,因为它在这种情况下显示了最好的结果。请注意,xi(M)=1。此列将从数据矩阵中删除,因为它不提供任何信息。从现在起,矩阵X表示规范化和居中的价格数据。然后,样本协方差矩阵计算为∑xx=XTX/(N- 1).我们获得了通用电气公司连续约12500天的收盘股价。然后,我们将此时间序列转换为具有不同长度的Hankel矩阵,如上所述。我们将数据向量分为两部分:第一部分用于估计∑xxx,第二部分用于绩效评估。我们在数据矩阵中包括12300个样本,2200个样本用于评估这些方法的样本外性能。我们从20到440不等,间隔30天,以研究观察向量长度对结果的影响,这意味着本研究评估了15组数据。归一化数据的柱状图表示数据的分布。图5表示矩阵X中的第一个预测值(第一列),曲线类似钟形。4.2. MSE性能对于上述构建的每个数据集,我们在接下来的10天(每天M+1吨)实施前面描述的三种不同的估计技术。如上所述,总体目标是一种估计技术,其行为与高斯-贝叶斯相似,但不具有病态导致的相关计算困难。

17
大多数88 在职认证  发表于 2022-6-9 18:42:38
如前所述,均方误差(MSE)是一种常见且适当的性能度量。我们取2200个样本的平均MSE值来评估方法的性能。我们为不同的M s,-0.4-0.3-0.2-0.1 0.1 0.2 0.3 0.4标准化价格数据01002000300400500600700频率实施了降维技术。图5:标准化数据和不同数量的主要特征值的直方图,L。我们对所有估计天数的MSE值的总和感兴趣,如图6所示。该图显示了所有天的MSE之和,受条件数∑ww的上限限制。如前所述,M、观测向量长度和MSE值之间存在一个偏差。一般来说,通过增加M,每次观测中可以获得更多信息,从而提高估计性能。图6中间的近似曲线图对应于无条件方法的MSE值,该方法基于我们的标准化和中心数据集的经验平均值。顶部的绘图对应于Gauss Bayes的MSE值。当谈到样本外性能时,数值复杂性超过了高斯-贝叶斯的估计精度,导致该方法的均方误差图甚至高于无条件估计的均方误差图。最后,底部的图与我们的降维方法相对应,受∑ww、10和10条件数的两个不同限制。在这种情况下,通过增加条件数∑ww的上限,这些值不会得到改善,因此图6中没有说明更高的条件数限制。Even90 180 270 360 450M0.04780.0480.04820.04840.04860.04880.0490.04920.0494MSECN<104CN<103图6:最佳MSE受∑ww,Unc…条件数不同上限的限制。。。

18
何人来此 在职认证  发表于 2022-6-9 18:42:40
GB–o RD–*此处所示的两个曲线图几乎相同,但M超过约350天之后除外。如前所述,当我们对条件数施加一些约束时,我们实际上限制了L的值,通过增加M,在某一点之后,我们主要增加噪声,MSE值变得更糟。这就是为什么在条件数∑ww小于10的降维法最佳性能曲线图中,在图6中,MSE的值在某一点后开始增加。图7显示了高斯贝叶斯和降维方法的条件数值。如图所示,降维方法将问题的条件数提高了几个数量级,从而获得了更好的性能。在这两种情况下,随着M的增加,conditionnumber也会增加。这与这样一个事实相一致,即对于较大的M,我们需要abigger子空间来有效地提取信息,这会导致较大的条件数。表1显示了MSE值。

19
何人来此 在职认证  发表于 2022-6-9 18:42:45
降维方法的性能优于其他两种方法。90 180 270 360 45001234567条件编号×10590 180 270 360 450M200040006000100000CN<104CN<103图7:不同M s的条件编号,底部的图表示顶部图的下部,GB–o RD–*表1:不同公司的MSE(M=330)MSE Unc GB RDGE 0.002358378 0.002421157 0.00229152INTC 0.00171524 0.001767552 0.001696432XOM 0.000970769 0.000964532 0.000920936CAT 0.002761635 0.002840376 0.00269465WMT 0.00064775 0.000687175 0.000629935SPY 0.001798499 0.001904198 0.0017022590 180 270 360 450M010203040506070最佳LCN<104CN<103图8:最佳L取决于不同条件数限制图8通过绘制对应于不同Ms的最佳MSE的L值来研究目标子空间的尺寸,条件数限制不同(与图6中的情况相同)。同样,L表示对角矩阵S所需的特征值数量,以表示信息的大部分。随着条件数上限的增加,MSE的值随着M的增加而增加,我们需要一个更大的子空间,更大的L来提取信息。4.3. 方向变化统计量另一个感兴趣的评估指标称为方向统计量,它根据方向变化测量实际值和预测值的匹配情况。准确地说,让^zi=h^zi(M+1)^zi(M+2)··^ziNibe为未来M+1至N天的价格预测。与zor今天的价格相比,我们评估了预测的方向。对于j=M+1,M+2。。。,N我们有:bij=1,如果(zij- z) (^zij)- z) >00,否则(26)30 120 210 300 390M0.20.30.40.50.60.70.80.91方向统计CN<103CN<104图9:最佳方向统计受∑ww,Unc条件数不同上限的影响。。。

20
nandehutu2022 在职认证  发表于 2022-6-9 18:42:48
GB–o RD–*然后Dj,第j天的方向统计,在K个样本上平均,等于Dj=KKXi=1bij,(27),这是一个介于0和1之间的数字(越高越好)。图9显示了使用sameK=2200个样本估计的10天内方向统计的平均值。如图所示,就方向变化统计而言,降维方法是可行的。值得注意的是,方向统计数据并不明显依赖于M。表2表示不同公司的方向统计数据,∑wwcondition数限制为10时,间谍的M=390。在方向变化估计方面,降维方法优于其他两种方法。需要注意的是,表2所示的值与所有不同情况下的特定值相关。在实践中,建议为每种股票选择合适的M,以获得最佳结果。例如,对于Intel,对于M=300,对于降维方法,方向统计量等于0.834,对于Gauss Bayes,方向统计量等于0.66,对于无条件估计,方向统计量等于0.4,表2:M=390的方向统计信息方向统计信息Unc GB RDGE 0.436363636 0.681818182 0.825INTC 0.525 0.5409091 0.715909091XOM 0.4522727 0.681818182 0.856818182 CAT 0.561363636 0.4681818 0.786363636WMT 0.3886364 0.4295455 0.795454545SPY 0.431818182 0.4840909 0.731818182,优于表中的值。4.4. 波动率我们估计的另一个重要参数是预测的波动率,以其标准偏差衡量。估计协方差对角线元素的平方根b∑zz是估计的各个天数的估计标准偏差。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-1 05:00