楼主: 能者818
988 27

[量化金融] 关于相关随机矩阵特征向量之间的重叠 [推广有奖]

11
nandehutu2022 在职认证  发表于 2022-5-11 13:46:34
我们定义了u和v的aspΦ(u,λ)/N×ε(u,λ)之间的重叠,其中Φ(u,λ)在[22]中针对广泛的问题明确计算,ε(u,λ)是单位方差的随机变量。现在,人们总是可以把u写成:uλ=√NZdu%C(u)pΦ(u,λ)ε(u,λ)vu,(22)式中,%表示C的光谱密度。利用v的正交性,我们可以得出:huλ,uλi=NZdu%C(u)pΦ(u,λ)Φ(u,λ)ε(u,λ)ε(u,λ)ε(u,λ)。如果我们将最后一个表达式平方,然后在噪声上求平均值,并根据所有符号ε(u,λ)实际上相互独立的情况,做出一个“遍历假设”[3],我们会发现以下对于平方重叠的非常直观的卷积结果:Φ(λ,λ)=Zdu%C(u)Φ(u,λ)Φ(u,λ)Φ(u,λ)。(23)事实证明,这个表达式是完全通用的,完全等价于等式。(12) (19)在相应的情况下。然而,尽管这个表达式仍然对纯矩阵C的结构有一些明确的依赖性,但它已经在等式中消失了。(12) 和(19)。然而,第二种解释将有助于获得一种从Largenioy矩阵估计C的有效方法。I II。应用程序。(12) 和(19)在高维极限(HDL)中是精确的,并且是这项工作的主要新结果。请注意,从参考文献[30]中,我们希望这些结果与N阶的函数保持一致-1/2但对转租条款进行更严格的分析对于实际目的可能有用。我们将这个问题留给未来的工作。在本节中,我们将重点讨论样本协方差/相关矩阵的情况,但随后的大多数结果可以很容易地转置为附加噪声。我们强调,在样本相关矩阵的特殊情况下,HDL定义为n,T,~T→ ∞ q=O(1),~q=O(1),(24),其中T是样本量。

12
mingdashike22 在职认证  发表于 2022-5-11 13:46:37
在本节中,我们将假设每个变量的方差可以在HDLso中以极高的精度独立估计,因此我们将不再区分进一步的协方差和相关性。第一个应用涉及对大型相关矩阵的特征向量进行稳定性测试。更准确地说,我们研究了两个相关矩阵的特征向量之间的均方重叠是否完全由测量噪声解释。不同的是,我们检验了样本相关矩阵模型能够适应特征向量动力学的假设。第二个应用涉及卷积公式。特别是,我们将我们的结果与RIEST理论联系在一起,后者在HDL中提供了比经典样本估计值显著改善的结果(最近的综述见[26])。A.特征向量稳定性。第一个应用程序处理两个不重叠的相邻样本情况下特征向量的稳定性。为了给出更多的见解,我们从一个理论例子开始,其中真相关矩阵C是参数κ的逆Wishart矩阵∈ (0, ∞), 对应于1/q forWishart矩阵(详见[22])。在这种情况下,可以显式地计算函数m(z)。这最终归结为:Φ(λ,λ)=Γ(λ+2qκ)2qκ2λ(υ + κ) - λκ+κ(2qγ)- 1)(25)其中Γ:=1+qκ和λ在区间[λ]内-, λ+],其中边由λ±=κ给出-1hγ+κ±p(2κ+1)(2qκ+1)i.一个有趣的限制对应于κ→ ∞, 式中,C趋向于同一矩阵,重叠预计将全部等于1/N。实际上,对于固定的q:Φ(λ,λ)~κ→∞\"1 +(λ - 1)(λ- 1) 2qκ+Oκ#, (26)如果C的本征值谱具有(2κ)给出的方差,则在这个极限下是普遍的-1.→ 0[43].

13
何人来此 在职认证  发表于 2022-5-11 13:46:41
这个公式很有趣,因为它允许我们估计C的特征值分布的宽度,即使它接近单位矩阵,即κ 1.可以考虑直接使用经验光谱上的信息,例如theMarˇcenko Pastur预测Tr C-1= (1-q) Tr S-1,原则上允许通过h1+(2κ)提取参数κ-1= (1 - q) Tr S-1/N。然而,当κ 1和N(首先,RHS可能为负值,这将导致负方差)。我们基于重叠的公式避免了这些困难。作为说明,我们用κ=10、N=500和q=0.5检查图2中等式(25)的有效性。更准确地说,我们确定经验平均重叠如下:我们考虑Wishart noiseW的50个独立实现。对于每对样本,我们计算一个平滑的DoverLap,如下所示:慧uii=ZiNXj=1hui,~uji(λi)- λj)+η(27),其中Zi=PNk=1((λi)- λk)+η)-1归一化常数和η——柯西核的宽度,我们选择N-1/2以这样的方式-1. η  1.然后,我们对给定值i的所有对进行平均,以获得[hui,~uii]e,并将结果量绘制为平均特征值位置[λi]e的函数。我们观察到,即使真实的基础矩阵C接近单位矩阵,与等式(25)的一致性也非常好。请注意,经验估算公式。(27)是通用的,即独立于C的底层结构。对于一般和任意的总体矩阵C,计算公式(12)或公式(19)相当困难,因为有限的尺寸效应,尤其是对于乘法情况。事实上,当我们考虑乘性噪声时,S的特征值被定义为保持正,这意味着原点处存在硬墙[44]。

14
大多数88 在职认证  发表于 2022-5-11 13:46:44
因此,使用局部定律来估计斯蒂尔杰斯变换g(z),0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5λ1.01.21.41.61.82.0Φ(λ,λ)是一个真实的问题。2:使用公式(26)评估N=500且κ=10的逆Wishart总体矩阵的自重叠。红色的平面线对应于这样一种情况,即我们确切地知道真实的特征值,而蓝色的点是使用Quest算法从估计的总体特征值中获得的(参见[34])。经验平均值由绿色菱形线绘制,并从(27)个超过50个W的实现中获得。如[30]中所述,对于非常小的特征值,通常会导致噪声结果。因此,从真实数据中确定公式(12)相当困难,必须借助数字正则化方案才能做到这一点。在样本相关矩阵的特定情况下,一种可能的解决方案是将著名的Marˇcenko Pastur方程[28,34]倒置,以输入总体矩阵c的特征值。一旦完成,即使在原点附近,也可以高精度地评估Stieltjes变换g(z)。在下文中,我们将使用[34]中所谓的QuEST数值模式来获得这些纯本征值。我们在图2中绘制了使用QuEST算法(蓝点)估计的总体特征值时获得的结果,并注意到一致性非常显著。既然我们有了总体特征值的估计,我们就可以研究实际数据的应用了。在这里,我们研究了美国股市的情况,但下面的结果可以推广到其他地区[26]。在处理真实数据时,困难在于测量公式(27)中两个不重叠的相关矩阵S和S之间的经验均方重叠(27),因为我们可能没有足够的数据点来评估公式(1)中要求的噪声平均值。

15
何人来此 在职认证  发表于 2022-5-11 13:46:47
为了避免这个问题,我们使用了一个引导过程来增加数据的大小[45]:我们从2004年到2013年总共花费2400个工作日来计算标准普尔500指数中300个最具流动性的资产,我们将这些资产分成两个大小相同的不重叠子集1200天,分别对应于2004年到2008年和2008年到2013年。我们将N=300只股票限制在2004年至2013年的整个时期内,所有这些股票都存在。然后,对于每个子集和每个引导样本b∈ {1,…,B},我们随机选择T=600 distinctday来构造两个“独立”样本相关矩阵Sb和+Sb,其中q=~q=N/T=0.5。然后,我们使用QuEST算法从这些B引导数据集计算经验均方重叠(1)和理论极限(12)。在我们的模拟中,我们设置B=100,并在图3中绘制了从Quest算法(蓝色虚线)和使用美国股票的经验图书陷阱估计(27)(绿点)得到的公式(1)的结果估计。我们还按照[35]中对标准普尔500指数提出的有效观察率qe eff=0.55(红色平原线)进行了估算,以解释相关性或重尾效应。0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0λ020406080Φ(λ,λ)经验图像估计(q=0.55)0.0 0.5 1.0 1.5 2.01.52.02.53.0图。3:评估自重叠Φ(λ,λ)作为样本特征值λ的函数,使用2004年至2013年的N=300个最具流动性的股票。我们将数据分成两个不重叠的时段,样本量相同,为1200个工作日。对于每个周期,我们随机选择T=600天,然后重复原始数据的B=100引导。在这100个引导(绿点)上使用公式(27)计算经验自重叠,并使用q=0.5(蓝色虚线)的QuEST算法估计极限公式(15)。

16
能者818 在职认证  发表于 2022-5-11 13:46:51
我们还提供了使用相同的有效观察比率qe eff=0.55得出的估计值,该比率解释了相关性/重尾效应[26]。插图:关注大部分的价值观。从图3可以清楚地看出,与大特征值相关的特征向量并没有被理论很好地描述:我们注意到(估计的)理论曲线和经验曲线之间存在差异,即使在考虑了有效比率qe eff之后。市场模式(未显示)的差异更大。这可能与这样一个事实有关,即最大的特征向量预计会随着时间的推移而真正演化,正如上文所述[16]。还请注意图3插图中理论预测和经验预测之间的左边缘间隙,该间隙已通过qe fff部分修正。这表明,仍然可以通过添加自相关或重尾条目来改进Marˇcenko Pastur框架,同时扩大S的LSD(参见[32,36]中的自相关和[37–40]中的重尾条目)。最后,所有这些言论也适用于其他市场[26]。B.旋转不变估计。除了特征向量的统计特性外,本文提出的理论框架对于从旋转不变估计器的特定类别中的大噪声矩阵估计C实际上非常有用(参见[26]和其中的参考文献,以获取关于该主题的最新评论)。对于这类估计器,关键是找到一种可观察的方法来估计理论特征值ξi≡ ξi(q)…=hui,Cuii,(28),其中Ui是S的特征向量:=√CW√C、 在最后一个方程的RHS中,我们省略了它们对q的依赖。在HDL中,有几种方法可以近似该估计器:使用各向异性局部定律[26]、Marˇcenko Pastur方程的数值反演[34]和所谓的交叉验证(CV)估计器[27]。

17
可人4 在职认证  发表于 2022-5-11 13:46:54
所有这些方法的显著特点是,得到的估计量只取决于可观测量,而(28)的情况显然不是这样。即使前两种技术本身很有趣,我们也会关注最后一种,因为它与第II D节中推导的卷积公式有关。从现在开始,我们考虑乘法,但下面的参数可以很容易地推广到加法情况。让我们考虑一下量νi≡ νi(q)…=hui,~Suii,(29)我们记得UIS独立于~S:=√C~W√C.我们再次假设我们处于制度(24)中,因此我们从(23)中推断出~Z%()λ)Φ(λ,)λ))λd)λ=Z%()λ)“Z%C(u)Φ(λ,u)Φ(λ,u)Φ(λ,u)du#λd)λ=Z%C(u)Φ(λ,u)“Z%()λ)Φ(λ,u)#)d#。(30)括号中的术语可以通过使用S:Z%()λ)Φ()λ,uj))λd)的定义来简化≈ hvj,~Svji=hC1/2vj,~WC1/2vji,我们重写了最后一行,这要归功于本征方程asZ%(~λ)Φ(~λ,uj)~λdλ≈ ujhvj,~Wvji=ujNXk=1ωkEhwk,vji,用ωk表示white-Wishart矩阵的第k个特征值,W和wk表示相应的特征向量。最后,weinvoke认为E[hwk,vji]=N-1对于所有j∈ [[1,N]]在HDL中,NXk=1ωkhwk,vji=1(31),因此我们有z∧%(∧λ)Φ(∧λ,uj)~λd∧≈ uj。

18
kedemingshi 在职认证  发表于 2022-5-11 13:46:57
(32)将最后一个方程代入(30)中,我们得到了任意∧q=O(1)的以下结果:νi(q)~Z%C(u)Φ(λ,u)udu≡ ξi(q),(33),其中最后一个等价性来自连续极限中oracle估计量的定义(28)。这一结果非常有趣,并表明可以通过考虑给定的C–例如S–的特征向量与另一个C–例如S–的特征向量之间的二次型来近似oracle估计器(28),即使后者的特征是质量比q 6=q的不同值。为了说明最后一点,让我们考虑一个参数为κ=0.5的逆Shart矩阵作为大小为N=500的总体相关矩阵。这两个噪声矩阵均来自多元高斯分布,但参数不同:第一个噪声矩阵S使用T=1000计算,而第二个噪声矩阵S对应于T=100。有了这个先验知识,通过强度α=1/(1+2qκ)和q=N/T的线性收缩在HDL中给出了oracle估计值。在图4中,我们绘制了从(33)中获得的预测,其中有固定的和单个实现的S(星点线),我们看到,虽然有噪声,但预测已经相当准确。我们还在同一个图中绘制了(33)超过20个独立实现的S(纯红线)的平均值,我们观察到与极限值(图4中的线y=x)的一致性非常好,只有非常小的波动(见蓝色阴影区域给出的置信区间)。非常令人惊讶的是,我们可以通过应用一种特殊的正则化来显著提高估计的准确性,即使是对于单个实现的S。更具体地说,我们从图4中看到,由于样本的有限大小,预测(33)不一定保持特征值的顺序。

19
何人来此 在职认证  发表于 2022-5-11 13:47:00
然而,在旋转不变假设下,观察非单调清洁方案可能是一个不需要的特性。事实上,没有理由先验地认为修改特征值的顺序是最佳的,也就是说,与主成分相关的方差。有几种方法可以正则化从(4)中得到的估计。我们可以对清理后的特征值进行排序[26],也可以进行等渗回归[27]。我们在图4的Inset中提供了一个关于单个实现的S(紫色平面线)的排序正则化的说明。与(33)(黄色交叉线)相比,平方误差的改善是显著的。此外,即使对于较大的q值,估计变得非常嘈杂,我们注意到估计的质量仍然与S(黑色虚线)的20次实现的平均值相当,这是非常显著的。我们还想强调,在所有情况下,我们得到的误差总是小于9,这是我们在保持S的样本特征值时得到的误差(参见图4的插图)。0 1 2 3 4 51+α(λi- 1) 0123456νi1实现平均置信区间0 2 4 6 8 10)Q01234567错误图。4:主要图表:当C是参数κ=0.5的500×500逆Wishart矩阵时,公式(33)的评估。我们希望去噪的第一个噪声矩阵S来自参数q=0.5的Wishart分布。第二个带噪矩阵也是一个Wishart矩阵,但参数q=5。x轴由真渐近值给出,即强度α=1/(1+2qκ)的线性收缩估计量。y轴是从(33)中获得的特征值。星号虚线是从一个样本中获得的结果,红色虚线是20个独立实现的S的平均结果,蓝色阴影给出了置信区间。

20
大多数88 在职认证  发表于 2022-5-11 13:47:04
插图:平方误差作为q的函数,其中我们用相同的N和T固定。黄色交叉线对应于等式(33)中单个实现的误差,紫色普通线对应于其排序版本。黑色虚线对应于等式(33)的平均值,超过20次实现的S。红色点给出了q=5的误差,即主图中所示的样本。从图4中可以看出,我们确实可以使用结果(33),即使在 q、 因此,这提供了一种通过比较样本内结果(即我们使用S的信息获得的估计量)和样本外结果(使用S的信息获得)来检查估计质量的简单方法。因此,它证明了[26]的样本外测试在使用财务数据评估经验最优RIE质量方面的有效性。第二个发现是,通过使用来自单个实现的相对较少的独立数据,可以相当准确地估计q固定值的最佳oracle。C.交叉验证估计器。另一个有趣的讨论是将上述结果与[27]中提出的交叉验证(CV)估计值进行比较。假设我们想要从T个独立样本中估计出(28个),我们将这些样本分成K个非重叠集合,这些集合的条件由{I}K=1表示。然后,CV估计器读取νcvi(q)=KKX=1Xt∈IDu()I,xtx*T我u()即,(34),其中每个集合I具有相同的大小,使得K |I|=T,u()是与从样本相关矩阵中获得的第I个特征值相关联的特征向量,在该矩阵中,我们移除了属于集合I的所有观测值∈ [1,K]]和q..=N/(T)- |I|)是相应的观察比率。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-3 20:35