楼主: mingdashike22
2153 165

[量化金融] 清理大型相关矩阵:来自随机矩阵理论的工具 [推广有奖]

81
nandehutu2022 在职认证  发表于 2022-6-15 15:55:56
特别是,上文第3节中提到的相位转换现象也适用于样本峰值特征向量到其母体峰值的投影:一旦特征值从整体中弹出,正方形重叠就变成1阶,如[35、39、125]中所述。事实上,可以精确计算样本尖峰特征向量与父尖峰之间的角度,见下文。4.1.1. 大宗商品。让我们首先关注整体特征向量,即当经验相关矩阵的维数增长到整数时,与光谱密度的整体特征值相关的特征向量。这个问题最近在[36,37]中进行了研究,我们在此重复不同的论点。第一步是描述样本协方差矩阵预解的渐近行为。这可以通过将自由矩阵乘积的预解式(2.100)专门化为A=C和B=XX的情况来实现*. 换句话说,A是人口矩阵,而B是白Wishart矩阵,扮演着噪声乘法扰动的角色。使用(2.44),我们明确地知道white-Wishart矩阵的S变换,因此,对于N→ ∞:zGE(z)ij=z(z)GC(z(z))ij,z=z1-q+qzgE(z)。(4.5)在文献中,这种极限结果被称为“确定性等价物”,因为RHS仅取决于确定性量,这是大型随机矩阵自平均特性的另一个证据。应该注意到(4.5)是预解矩阵之间的关系,它推广了scalarMarˇcenko Pastur方程(3.9)(可以通过在方程两侧取轨迹来恢复)。该关系首次出现在【66】中,使用高斯输入有效的平面图展开获得。几年后,这一结果在Ref。

82
nandehutu2022 在职认证  发表于 2022-6-15 15:55:59
[111]在一个更一般的框架中,再次强调了随机矩阵预解的普遍性,直至局部尺度。选择在C为对角线的基础上工作,等式(4.5)减少为:GE(z)ij=δijz-ui(1-q+qzgE(z))。(4.6)该确定性等效物适用于N阶函数-1/2. 这可以从中心极限定理(CLT)中推断出来(见附录C)。非常有趣的是,在[111]中提供了错误项的显式上界。特别是,作者表明,式(4.5)保持了局部尺度η=bηN-1带bη 1,误差项以:ψ(z)为界=sqIm gS(z)bη+qbη,(4.7)回想一下,gE(z)是极限Stieltjes变换。注意,在第2.0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5λ节中提出的复制方法中,也不需要高斯假设-0.50.00.51.01.52.02.5Im[GE(z)](a)Im[GE(z)]的对角线输入,i=1000.0.0 0 0.5 1.0 1.5 2.0 2.5 3.0 3.5λ-0.4-0.3-0.2-0.10.00.10.20.30.4Im[GE(z)](b)i=999和j=1001.0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5λ的Im[GE(z)]的对角线入口-3.5-3-2.5-2-1.5-1-0.50.00.51.0Re[GE(z)](c)Re[GE(z)]的对角线输入,i=1000.0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5λ-0.3-0.2-0.10.00.10.20.3Re[GE(z)](d)为Re[GE(z)]的对角线输入,i=999,j=1001。图4.1:。公式(4.6)的图解。总体矩阵是参数k=5的逆Wishart矩阵,样本协方差矩阵是使用T=2N和n=2000的Wishart分布生成的。对于任何z=λi,计算GE(z)(蓝线)的经验估计值-在里面-1/2带i∈ [[1,N]]来自一个样本,理论值(红线)由公式(4.5)的RHS给出。绿色虚线对应于置信区间,其公式由公式(4.7)给出。只要N足够大。

83
mingdashike22 在职认证  发表于 2022-6-15 15:56:02
我们在图4.1中给出了这种遍历行为的一个例子,我们看到这种一致性非常好。如何使用(4.5)计算均方重叠?其思想是为完全预解式推导一个类似于(2.11)的反演公式。更具体地说,对于给定的nv=vjan,我们从(2.6)开始,注意真正的特征向量是确定性的。因此,如果z不在E的谱的支持范围内,则后一个方程RHS上的和预计将收敛于大的N极限。此外,整体中的本征值收敛到其经典位置(3.40),因此我们得到→ ∞ thathvj,GE(z)vji~N↑∞ZΦ(λ,uj)ρE(λ)λi- λ - iηdλ。(4.8)其中我们设置了z=λi- iη,η N-1和Φ(λ,uj)是平滑的平方重叠,在λ周围的一小段宽度η上平均。因此,使用Sokhotski-Plemelj恒等式得出最终反演公式:Φ(λi,uj)=πρE(λi)limη→0+Imhvj,GE(λi- iη)vji,(4.9),其中λilies在大部分光谱中的假设在此至关重要。最后一个恒等式允许我们从完整预解式GE计算出整体中任何i(i>r+1)和固定j的平方重叠Φ(λi,uj)∈ [[1,N]]。专注于等式(4.6)中给出的GE(z)的显式形式,我们最终获得了(重新缩放)平均平方重叠的一个漂亮的显式结果:Φ(λi,uj)=qujλi(uj(1-q)- λi+qujλihE(λi))+qujλiπρE(λi),(4.10)带i∈ [[r+1,N]],j∈ [[1,N]]和hE(λi)表示Stieltjes变换gE的实部(见等式(2.9))。这个关系在极限N中是精确的→ ∞ 由Ledoit和P'ech'ein首先推导得出【36】。我们再次强调,即使ujis是异常值,此表达式仍然正确。

84
何人来此 在职认证  发表于 2022-6-15 15:56:11
由于Φ(λi,uj)在q>0时为一阶单位,我们得出结论,E的任何体特征向量uif和特征向量vjof C之间的点积为N阶-1/2,即在大N时消失,因此非离群样本特征向量保留的关于其对应的真实特征向量的信息非常少。这意味着,在高维区域,任何体特征向量都是对真实特征向量的极差估计。我们在图4.2中提供了公式(4.10)的图解,其中n=500,C是κ=1的逆Wishart矩阵。经验平均值来自E的500个独立实现,我们看到它与渐近理论预测(公式(4.10))完全一致。注意,在极限q中→ 0,Φ(λi,uj)在λi附近变得越来越高≈ uj,振幅在q=0时发散。事实上,在这种有限的情况下,我们应该发现ui→ ±vjδij,即样本特征向量等于总体特征向量。4.1.2. 异常值。通过构造,第3.3节的尖峰相关模型使得顶部ReigenValue[λi]i∈[[1,r]]位于ρE的频谱之外。关于相关尖峰特征向量的统计信息,可以说些什么∈[[1,r]]?如果我们将这些异常值视为(实际的)无尖峰矩阵E的有限秩变形,那么通过Weyl的特征值交错不等式[126],共扼密度ρEis不受非宏观尖峰的影响,即对于任何异常特征值,ρE(λi)=0。我们在上一节中看到,对于非离群特征向量,计算重叠的主要成分是(i)自平均特性和(ii)反演公式(4.9)。两者都隐式地依赖于连续极限的有效性,但对于异常值来说,情况并非如此。

85
kedemingshi 在职认证  发表于 2022-6-15 15:56:15
因此,我们预计离群特征向量的统计数据与大量特征向量完全不同,正如在[125,92]中针对零假设情况C=所证实的那样。在这一节中,我们介绍了分析工具,以分析无轨总体协方差情况下的离群值重叠,如下所示。从等式(3.62)中,我们可以看到每个离群值特征值[λi]i∈E的[[1,r]]收敛到确定性极限θ(ui),其中uiis是相应的总体尖峰,θ是与马ˋ岑科-Pastur方程相关的某个函数。因此,对于孤立的尖峰i∈ [[1,r]]我们可以定义闭合圆盘图4.2。重标均方重叠Φ(λi,uj)作为λi的函数。我们选择C作为参数κ=1.0的逆切分矩阵,并设置N=500,q=0.5。经验平均值(红点)来自E的500个独立实现。理论预测(蓝线)由公式(4.10)给出。均方重叠的峰值在λi附近≈ uj≈ dI在复平面中,以θ(ui)为中心,选择半径,使每个点不包围集合[θ(uj)]j中的其他点∈[[1,r]](详见[38])。然后,定义Γ为闭盘Di的边界,我们可以使用Cauchy积分公式Hui,vji=2πiIΓihvj,GE(z)vjidz,(4.11)对于i,j获得离群特征向量的平方重叠∈ [[1,r]]。我们强调式(4.11)中没有期望值(与式(4.3)中重叠的定义相比)。积分的计算是非常不平凡的,因为对于任何j,GEis在θ(uj)附近都是奇异的∈ [[1,r]]和fine N.为了绕过这个问题,我们重新考虑了(3.56)中定义的无尖峰总体协方差矩阵C和相应的无尖峰样本协方差矩阵E。显然,通过构造,预解GEI在θ(uj)附近不再是奇异的。

86
何人来此 在职认证  发表于 2022-6-15 15:56:18
此外,如上所述,E和E的特征值的全局统计在极限N中是相同的→ ∞. 最后,我们可以使用Schur补码公式将Geo的任何投影与异常人口协方差特征基联系起来(请参见附录B):V(r)*GE(z)V(r)=-zD-1.-√IN+DDD-1英寸以上- zV(r)*GEV(r)-1.√IN+DD. (4.12)这一身份已被用于处理相关问题的几项研究【97,38】和其中的参考文献。其推导只需要线性代数参数,可在第4.1.3节中找到。有了这个恒等式,E的异常值的统计数据被视为仅依赖于无尖峰矩阵E。特别是,(4.11)的被积函数可以使用无尖峰预解式重写,该预解式在E的谱之外的任何地方都是解析的。由于E的预解式的全局律在大N限内与E相同,我们可以再次使用估计值(4.5)。通过将(4.5)插入(4.12),获得一个水,vji=-2πiIθ(Γi)z“dj-1+djdjd-1j+1- zhvj,GE(z)vji#dz。(4.13)然后,使用公式(3.58)和柯西定理,最终得出【38】hui,vji=δijuiθ(ui)θ(ui)+O(N-1/2)=δijuiθ(ui)λi+O(N-1/2),(4.14)对于任何i,j∈ [[1,r]]在最后一步中,我们在分母中使用了(3.62)。因此,我们得出结论,样本离群特征向量Ui集中在孔径为2 arccos(uiθ(ui)/θ(ui))的Vi周围的圆锥体上。我们还从式(4.14)中推断,UIs在所有方向上都是离域的,与不同的峰值μj6=ui相关。式(4.14)的一个有趣应用是重新考虑上一章中介绍的峰值协方差矩阵模型。为了简单起见,我们假设一个峰值(r=1),从方程(3.63)可以得到,对于u>1+√qθ(u)=u+q+qu- 1,并将该结果代入方程(4.14)yieldshu,vi=uθ(u)1.-q(u- 1)+ O(T-1/2),(4.15),这是预期结果[35、39、97、112、40]。

87
kedemingshi 在职认证  发表于 2022-6-15 15:56:21
这一结果表明,当μ→ 1 +√q,因为它应该来自结果(3.64)。同样的分析也适用于样本峰值和总体特征值j>r之间的重叠。详情见【38】,最终结果为Φ(λi,uj)=qujλi(1-uj/ui),i∈ [[1,r]],j∈ [[r+1,N]]。(4.16)正如预期的那样,任何异常特征向量uihas~ N-1/2与Ce的任何特征向量重叠,除了其来自vi的“父”之外。在r=1的情况下,我们将图4.3中的等式(4.16)作为i>2的总体特征值ui的函数进行说明:在我们的示例中,C是参数κ=1的逆Wishart矩阵,我们添加了秩1扰动,使得λ≈ 10、经验平均值来自E的200次实现,我们发现与理论预测的一致性不太好。4.1.3. 身份的推导(4.12)。恒等式(4.12)的推导是处理样本协方差矩阵E异常值的核心工具。它完全依赖于线性代数参数(请参见附录B以获取提示)。为了减轻符号的重量,让我们重命名V≡ 本节中的V(r)。第一步是从等式(3.56)中写出以下等式:pC C-1件- IN=(IN+VDV*)-1.- 英寸=-(英寸+VDV*)-1VDV*= -VD(Ir+D)-1伏*(4.17)图4.3。重标均方重叠Φ(λ,uj)作为j>1时uj的函数。我们选择无尖峰填充矩阵C为反向Wishart矩阵,参数κ=1.0,N=500。我们加上一个扰动,使得λ≈ 10与其他隔离。样本矩阵E由q=0.5的aWishart矩阵给出。我们比较了来自E的200个独立化的经验平均值(蓝点)。理论预测(红线)由公式(4.16)给出。我们在第二行中使用了预解式标识(4.32)。

88
大多数88 在职认证  发表于 2022-6-15 15:56:24
这允许我们得到(忽略参数z)C-1/2C1/2GEC1/2C-1/2=C-1/2zC公司-1.- XX号*-1C级-1/2=z(C1/2C-1C1/2- IN)+zIN- E-1=-zVD(I+D)-1伏*+ G-1E级-1,(4.18),其中我们在最后一步中调用了前面的等式(4.17)。从(B.8)开始,我们有一个≡吉恩- E、 B类≡ -zV,D≡ D(Ir+D)-1和C≡ 五、*:C-1/2C1/2GEC1/2C-1/2=GE+zGEVD-1+Ir- 零电压*GEV公司-1伏*通用电气。(4.19)从那里,一个有(IN+D)1/2V*GEV(英寸+直径)1/2=V*GEV+zV*GEV公司D-1+Ir- 五、*GEV公司-1伏*GEV。(4.20)然后我们使用标识a- A(A+B)-1A=B- B(A+B)-1B,(4.21),A=V*GEV和B=-(D)-1+Ir)/z获得(Ir+D)1/2V*GEV(Ir+D)1/2=-z“Ir+DD+Ir+DD-(D)-1+红外)+零电压*GEV公司-1Ir+DD#。(4.22)通过重新安排条款,我们最终获得*GEV=-z“D-1.-√Ir+DDD-1+Ir- 零电压*GEV公司-1.√Ir+DD#,(4.23),精确地等于(4.12)。4.2. 相关样本协方差矩阵的特征向量之间的重叠。我们现在考虑本章的第二个问题,也就是说,我们可以从样本特征向量中了解多少关于C结构的信息?不同的是,假设一个人测量同一过程的样本协方差矩阵,但在两个独立的时间间隔上,对应的特征向量预计有多接近?为了回答这个问题,让我们用E和E表示相同人口矩阵C定义的独立样本估计=√CW公司√C、 E=√CW√C、 (4.24)其中,W和▄W是两个独立的white Wishart矩阵,分别具有参数q和q。如第4.1节所述,我们可以通过均方重叠来研究这个问题。在本节中,我们为高维区域中的这些重叠提供了精确、明确的公式,也许令人惊讶的是,我们将看到,在没有任何关于C谱的先验知识的情况下,可以对它们进行评估。更具体地说,我们将显示等式(4.4)在大N极限下再次表现出自平均行为,即独立于e和e的实现。

89
nandehutu2022 在职认证  发表于 2022-6-15 15:56:29
此外,我们将看到,重叠(4.4)明显偏离了平凡的零假设,因为种群C具有非平凡的结构。因此,这表明我们可能仅使用经验量就可以推断非常大的数据库的相关结构。所有这些结果都是在最近的工作中获得的,我们在此仅给出主要步骤。为清楚起见,我们使用符号▄λ>▄λ>…>~λNto表示▄E的特征值,由▄u,▄u,解相关特征向量。注意,为了方便起见,我们将再次使用相应的特征值对特征向量进行索引。本节的中心工具是(4.4)的反演公式,这通常在RMT中完成。为此,我们定义了二元复函数ψ(z,~z)=*NTrh(z-E)-1(yenz-E)-1i+P,(4.25),其中z,~z∈ C和h·Ip表示与EAN和▄E相关的概率测度的平均值。然后,通过E和▄E的谱分解,可以得到ψ(z,▄z)=*NNXi,j=1z-λiz-§λjhui,§uji+P,(4.26),其中P表示E和▄E的噪声部分的概率密度函数。对于大型随机矩阵,我们期望特征值为λi∈[[1,N]]和[∧i]i∈[[1,N]]坚持其经典位置,即相对于光谱密度的分位数进行平滑分配(见第3.2.1节),以便样本特征值在大N限值下具有确定性。因此,我们在取连续极限ψ(z,~z)后得到~Z Zρ(λ)Z-λИρ(∧)~z-§λΦ(λ,§λ)dλdλ,(4.27),其中ρ和ρ分别是E和▄E的光谱密度,Φ表示上述(4.4)中定义的均方值。

90
能者818 在职认证  发表于 2022-6-15 15:56:33
然后,需要计算ψ(x-iη,y±iη)~Z Z(x-λ+iη)(x-λ) +η(y-~λ iη)(y-§λ)+ηρ(λ)~ρ(~λ)Φ(λ,~λ)dλd~λ(4.28),从中可以推断出ψ(x)-iη,y+iη)- ψ(x)- iη,y- iη)~ 2Z Zηρ(λ)(x-λ) +ηη|ρ(|λ)(y-Иλ)+ηΦ(λ,キλ)dλdキλ。(4.29)最后,反演公式遵循Sokhotski-Plemelj恒等式η→0+Reψ(x)-iη,y+iη)- ψ(x)- iη,y- iη)~ 2πρ(x)~ρ(y)Φ(x,y)。(4.30)注意,只要其光谱密度收敛到一个明确的确定极限,该推导适用于任何E和▄E模型。反演公式(4.30)允许我们通过二元函数ψ(z,~z)的渐近行为来研究均方重叠(4.4)。此外,由于我们能够控制E和▄E的预解式(见等式(4.5)),等式(4.25)的计算是即时的,并导致ψ(z,▄z)~z▄zNTrZ(Z)(Z(Z)-C)-1▄Z(▄Z)(▄Z(▄Z)- C)-1., (4.31)其中Z(Z)在(4.5)中定义,Z(Z)通过替换q和gEby@q和g@E从Z中获得。然后,我们使用恒等式Z(Z)-C-1.~Z(~Z)- C-1=▄Z(▄Z)- Z(Z)hZ(Z)-C-1.-~Z(~Z)- C-1i(4.32)获得ψ(z,~z)~Z(Z)~Z(~Z)Z~Z~Z(~Z)- Z(Z)NTrhZ(Z)-C-1.-~Z(~Z)- C-1i。(4.33)从最后一个方程,并使用Marˇcentko Pastur方程(3.9),我们最终得出ψ(z,~z)~~Z(~Z)- Z(Z)“~Z(~Z)~zgE(Z)-Z(Z)zg▄E(▄Z)#。(4.34)人们注意到,公式(4.34)仅取决于先验可观测量,即它们不明确涉及未知矩阵C。一旦我们描述了二元函数ψ(z,~z)的渐近行为,我们就可以应用反演公式公式(4.30),以检索均方重叠(4.4)。在说明本节的主要结果之前,我们首先将(4.34)改写为T×T对偶矩阵S=T的Stieltjes变换gsa的函数-1台*满足XX的CX*= W和等式(3.33)。同样,我们定义S=T-1X*C▄X带▄X▄X*=W。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-23 22:35