楼主: mingdashike22
2150 165

[量化金融] 清理大型相关矩阵:来自随机矩阵理论的工具 [推广有奖]

91
nandehutu2022 在职认证  发表于 2022-6-15 15:56:37
使用(3.33)并省略参数z和▄z,我们可以将(4.34)重写为ψ(z,▄z)~q▄qz▄z“(▄qz- qz)gSgS- gS+(q- q)g  SgS- g▄S▄+gS+g▄Sq▄z-1.-qqzz.(4.35)我们从(4.30)中看到,现在需要考虑极限η→ 0+以获得所需的结果。为了使符号更清晰,让我们定义(λ)≡ limη→0+gS(λ-iη)=mR(λ)+imI(λ)(4.36),其中mR(λ)=qhE(λ)+1-qλ,mI(λ)=qρE(λ)+(1- q) δ,(4.37),其中是ρE的希尔伯特变换。请注意,该关系式源自等式(3.9)。我们还定义了▄m(λ)=limη→0g?S(λ-iη),并分别用实部和虚部表示。然后,方程(4.4)对于任何λ的渐近行为∈ 供应%和∧∈ %由Φq,q(λ,λ)=2(qλ)给出(详细推导见[124])- q▄λ)mR | m|- mR | m|+ (q-q)|~m|- |m级|λИλh(mR- mR)+(mI+▄mI)ih(mR- mR)+(mI- mI)i.(4.38)一个有趣的一致性检查是当▄q=0时,在这种情况下,样本特征值与颚化矩阵的真特征值一致,即▄λ→ u. 在这种情况下,我们回到上一节的框架,即获得e和C的特征向量之间的重叠。可以很容易地检查▄mR=1/u和▄mI=0。因此,我们从(4.38)中推断出Φq,~q=0(λ,u)=qλu(mR- 1/u)+mI=quλ| 1-um(λ)|,(4.39),这是在限制η中应用公式(3.33)后写入(4.10)的另一种方式→ 0+. 因此,结果(4.38)推广了公式(4.10),因为我们能够研究两个可能有噪声的样本估计之间的均方重叠。请注意,在q=q的情况下,等式(4.38)可以稍微简化为:Φ(λ,~λ)=q(λ-~λ)mR(λ)| m(∧λ)|- mR(∧)m(λ)|λИλh(mR- mR)+(mI+▄mI)ih(mR- mR)+(mI- mI)i,(4.40),当∧=λ[124],Φ(λ,λ)=q2λ| m(λ)时变为|λmR(λ)/| m(λ)|mI(λ)|λm(λ)|。

92
可人4 在职认证  发表于 2022-6-15 15:56:40
(4.41)最后的“自重叠”结果量化了与相同特征值λ相关的特征向量Ui和Ua的稳定性,当它们都来自相同的总体矩阵C时。该预测重叠和经验结果之间的任何统计显著偏差都可以解释为对假设的否定,即“真实”总体矩阵对应于E和▄E实际上是不同的。从应用程序的角度来看,这是非常有趣的,尤其是对于财务数据,没有任何东西可以确保C与时间无关。既然我们有了所有这些理论结果,现在让我们给出公式(4.40)的一些应用,因为它们将强调我们确实可以从均方重叠(4.4)中找到关于ofC光谱的真实信息。我们强调,以下所有应用程序都是在q=~q的情况下执行的,以便对结果有更多的了解。通常,我们从零假设C=开始,它将作为我们处理更结构化光谱的基准。正如我们在第(2.2.3)节中所示,Stieltjes变换了gE,从而得到了从Marˇcentko Pastur密度得到的gSisexplicit。更准确地说,我们从公式(2.41)和(3.33)中推断出,Gs由Gs(z)=z+q给出- 1.-ip4zq-(z+q-1) 2z(4.42)适用于任何z∈ C-. 使用定义(4.36)很容易看出,我们有mr(λ)=λ+q- 12z,mI(λ)=p4λq-(λ+q-1)2λ. (4.43)因此,得到| m(λ)|=λ-1和| m(λ)|=q/(2λ),并将此表达式插入公式中。(4.41),对于任何λ,我们最终得到Φq,q(λ,λ)=1,(4.44)∈ [(1 -√q) ,(1+√q) 】。这个简单的结果是预期的,因为它对应于C的光谱没有真实结构的情况,所以问题中的所有各向异性都是由噪声引起的,噪声在两个样本中是独立的。图4.4:。N=500且q=q=0.5的NEhui评估。

93
能者818 在职认证  发表于 2022-6-15 15:56:45
总体矩阵C由带参数κ的逆Wishart给出,样本协方差矩阵S和▄S由多变量高斯分布生成。在200次实现中取经验平均值(蓝点),并对所有[λi]的理论预测公式(4.41)(红线)进行评估。接下来,我们考虑人口相关矩阵C的一个更结构化的示例。可以分析处理的一个方便情况是,当C为逆Wishart矩阵时,即根据公式(2.54)中定义的κ>0(2.58)进行分布。正如我们在前一章中所看到的,在这种情况下,Stieltjestransform gE(z)是明确的(参见等式(3.41))。回到等式(4.41),我们可以从等式(3.41)得出,mR(λ)=λ(1+qκ)+qκ(1-q) λ(λ+2qκ),mI(λ)=qqλ-λiw-qλiw+- λλ(λ+2qκ),(4.45)带λ∈ [λiw-, λiw+]其中λiw±在(3.42)中定义。将这些表达式插入公式(4.41)中,在进行基本计算后,得出Φq,q(λ,λ)=(1+qκ)(λ+2qκ)2qκ2λ(1+κ(1+q))- λκ + κ(-1+2q(1+qκ)). (4.46)最后一个公式的直接结果是,在存在各向异性相关性的情况下,均方重叠(4.4)明显偏离了零假设Φ(λ,λ)=1。在近似各向同性极限κ中→ ∞, 对应于极限C→ 在中,一个得到[124]Φ(λ,λ)~κ→∞\"1 +(λ -1)(~λ -1) 2qκ+O(κ-2) #,(4.47),这实际上在这个极限下是通用的(即,独立于矩阵C的精确统计特性),前提是C的特征值谱具有(2κ)给出的方差-1.→ 0+[124].在一般情况下,我们在图4.4中提供了最后一个语句的数值说明,其中κ=5,N=500,q=0.5。正如我们所期望的λi≈任意i的λIf∈ [[1,N]],我们将我们的理论结果(4.46)与经验平均值[hui,~uii]进行了比较,得出了超过200个E的实现,我们发现这一一致性再次非常好。

94
能者818 在职认证  发表于 2022-6-15 15:56:48
因此,我们得出结论,(4.38)的一个可能应用是仅使用样本特征向量直接估计C的统计纹理:有关有趣的示例,请参见第7节。现在,我们使用第4.1节的结果,给出Φq的另一种推导方法。以下参数非常普遍,在考虑更一般的随机矩阵的IGenvector之间的重叠时可能有用。起点是trueeigenbasis的正交性,即VV*= 信息V..=[v,…,vN]。因此,我们可以始终编写ui,~uji=*ui,NXk=1vkv*k~uj+=NXk=1hui,vkihvk,~uji(4.48)使用第4.1节的结果,我们重命名重叠hui,vki=pΦq(λi,uk)/N×ε(λi,uk),其中Φq(λ,u)在(4.3)中定义,ε(λ,u)是单位方差的随机变量。因此,我们有hui,~uji=NNXk=1qΦq(λi,uk)Φq(~λj,uk)ε(λi,uk)ε(~λj,uk)。(4.49)如【124】中所述,通过对噪声进行平均并作出“遍历假设”【127】——根据该假设,所有符号ε(u,λ)实际上在大N极限中彼此独立——一个端点SUP,具有以下相当直观的平方重叠卷积结果:Φq,q(λi,λj)=NNXk=1Φq(λi,uk)ΦИq(λj,uk)(4.50)如果将重叠函数Φ替换为(4.10),则该表达式是完全通用的,并且与等式(4.40)完全等价。然而,尽管该表达式仍然包含对纯矩阵C结构的明确依赖,但它在等式(4.40)中已完全消失。公式(4.50)的一个有趣应用是,当E(和E)的谱包含一定数量的异常值时。使用LDL中的结果(4.14)和(4.16)以及i 6 r中的产量:Φq,~q(λi,~λi)≈ uθ(u)~θ(u)θ(u)~θ(u),(4.51),其中我们记得函数θ在(3.62)中定义,我们通过将qq替换为qq来定义θ。

95
mingdashike22 在职认证  发表于 2022-6-15 15:56:51
注意,通过注意u=gS(λ),θ(u),我们可以用可观测变量表示(4.51)=-1gS(θ(u))ui,(4.52),我们将其插入(4.51)中,得出Φq,¢q(λ,¢λ)≈gS(λ)λgS(λ)gS(λ)λgS(λ)。(4.53)当q=~q时,该表达式变得更简单,因为它变成了Φq,q(λ,~λ)≈gS(λ)λgS(λ)!。(4.54)从(4.14)和(4.16)中进一步推断,对于i 6 r,Φq,¢q(λi,¢λj)~ O(N-1) 对于任何j 6=i.5。贝叶斯随机矩阵理论我们在前几章中看到,RMT允许人们对大型经验协方差矩阵做出精确的陈述。特别是,我们强调,当q=O(1)时,样本谱密度ρE显著偏离真实谱,因此经典样本估计量E在高维极限下不一致。文献中曾多次尝试使用启发式或决策论论据纠正这种“维度诅咒”(这些尝试的总结见第7.2节)。尽管这些方法存在很大差异,但所有这些方法都属于所谓的收缩估计器,也就是说,人们寻求“清理”样本特征值的最佳方法,以使估计器对测量噪声尽可能鲁棒。在前一章中,我们坚持认为体样本特征向量是非定域的,具有N阶投影-1/2在所有方向上,这意味着它们是总体特征向量的噪声极大的估计量。因此,将样本特征值替换为通过反转Marˇcenko Pastur方程得到的估计真实值的天真想法不一定会带来令人满意的结果——只有在我们对C的特征向量有充分了解的情况下,这才是最佳策略。

96
mingdashike22 在职认证  发表于 2022-6-15 15:56:57
因此,留给我们的是一个非常复杂的问题:在知道特征值有系统偏差且特征向量几乎完全未知的情况下,我们如何“准确”估计高维区域中的矩阵C?本章和下一章的目的是通过制定与质量比q一致的非最优策略来估计C来回答这个问题。所谓最优,我们的意思是,我们要构建的估计器必须最小化给定的损失函数。自然最优性标准是估值器(此后称为Ξ(E))与真矩阵C之间的平方距离。至于James Stein估值器,我们期望“混合”估值器在高维上比“经典”估值器(如Pearson估值器)提供更好的性能。在这方面,我们引入了贝叶斯框架,粗略地说,它允许我们引入概率模型,通过先验信念的概念对可用数据进行编码。概率表示置信度的事实是贝叶斯推理的核心。正如本综述导言所述,这一理论取得了很大的成功,尤其是在高维框架中。这一理论的核心工具是众所周知的贝叶斯公式,它允许我们引入条件概率的概念。有许多不同的方法可以使用这个公式,相应的思想流派被称为经验、主观或客观贝叶斯(参见示例[128])。在这里,我们将不讨论这些不同的观点,而是将重点放在问题的推理部分。更准确地说,我们在本章中的目标是为Ξ(E)构造一个贝叶斯估计。因此,我们将本章组织如下。在第一部分中,我们回顾了贝叶斯推断的一些基本结果,并介绍了我们感兴趣的估计量。

97
大多数88 在职认证  发表于 2022-6-15 15:57:00
然后,我们重新考虑公式(1.9)中提到的著名的“线性收缩”估计量,该估计量通过共轭先验的概念在样本估计量和身份矩阵之间进行线性插值。最后,我们考虑了一类旋转不变先验,其中前几章介绍的RMT形式主义被应用于推导C的最优估计量,这将证明比所有过去的尝试更有效–参见第8.5.1章。贝叶斯最优推理:一些基本结果。5.1.1. 后验概率分布和联合概率分布。贝叶斯理论至少在原则上允许我们回答以下问题:给定观测矩阵Y,如果C的统计先验知识可用,我们如何才能最好地估计C?先验信息这一概念一直是许多争议的主题,但却是贝叶斯推理理论的基石。更准确地说,贝叶斯推理的主要概念是众所周知的贝叶斯公式P(C | Y)=P(Y | C)P(C)P(Y)(5.1),其中IP(C | Y)是给定测量值的C的后验概率。IP(Y | C)是似然函数,对测量过程进行建模。IP(C)称为C的先验概率,即对C的先验信念(或知识)。IP(Y)是边际分布,有时被称为证据。注意,边缘分布通常被认为是一个简单的归一化常数(或配分函数),因为它由P(Y)=ZDCP(C)P(Y | C)给出。(5.2)此外,我们将经常使用由P(C,Y)=P(Y | C)P(C)定义的联合概率分布的概念。(5.3)因此,贝叶斯模型中的两个关键输入是似然过程和先验分布。使用贝叶斯框架学习实际上可以分为两个不同的步骤,在我们的上下文中是:1。

98
kedemingshi 在职认证  发表于 2022-6-15 15:57:03
将联合概率分布P(C,Y)定义为先验分布与似然函数的乘积,即P(C,Y)=P(Y | C)P(C)。(5.4)2. 在可用数据上测试后验分布P(C | Y)的一致性。我们强调,先验分布的存在并不意味着C是随机的,它简单地表示了对C结构的信任程度。采用这种观点的主要优点是便于解释统计结果。例如,贝叶斯(概率)区间告诉我们试图估计的参数值的概率有多大。这与频率间隔形成对比,频率间隔仅根据一系列相似的实现(置信区间)来定义。我们将在下一段讨论这些观点之间的差异。5.1.2. 贝叶斯推理。贝叶斯推理的概念与所谓的贝叶斯风险的概念有关。在我们的问题中,我们想要估计给定样本数据Y的真实协方差矩阵C;我们将用Ξ(Y)表示这个估计量。有两种方法来思考这个问题:频繁者和贝叶斯方法。我们将在本节中详细说明这两者之间的差异。让我们引入一个损失函数L(C,Ξ(Y)),该函数量化了估计量与真实量C之间的距离。通常,假设该损失函数是一个L(C,C)=0的非负凸函数。传统的频率分析方法是通过对不同观测集上的损失函数求平均来评估给定激励因子的性能,对于固定的C。另一种观点是认为C的精确性质未知。

99
何人来此 在职认证  发表于 2022-6-15 15:57:06
这种观点的变化必须被编码到推理问题中,一种方法是查看所有先验可能实现的C的损失函数的平均值,而不是Y本身的实现。这是贝叶斯优化策略,相应的决策规则是所谓的贝叶斯风险函数,定义为:RBayes(L(C,Ξ(Y)))=L(C,Ξ(Y))P(C,Y),(5.5),其中,与频点法不同,期望值取Yand和C的联合概率。最常用的损失函数之一是希尔伯特-施密特(或欧几里德)平方形式,即LL(C,Ξ(Y))=Tr[(C- Ξ(Y))(C- Ξ(Y))*] . (5.6)利用协方差矩阵是对称的,并应用贝叶斯规则,我们可以看到RBAyes=Tr公司(C)-Ξ(Y))P(Y | C)P(C)=Tr公司(C)-Ξ(Y))P(C | Y)P(Y),(5.7),其中我们使用边际分布为正,以便交换第二行中的积分顺序。最优贝叶斯估计量定义如下:让我们用MN(Y)表示N×N正有限矩阵的集合,它们是Y的函数。这定义了c的容许估计量集合。然后,根据最小均方误差(MMSE)条件,即ΞMMSE,给出与损失函数(5.6)相关的Bayes估计量≡ ΞMMSE(Y)…=argminΞ(Y)∈锰(Y)LL(C,Ξ(Y))P(C,Y),(5.8)展开(5.7),很容易看出MMSE估计量由后验平均值给出:ΞMMSE=hCiP(C | Y)。(5.9)注意损失函数的自然选择可能取决于问题的性质。其他损失函数通常会导致不同的Bayes估计量,但我们不研究这种推广。5.2. 设置贝叶斯框架。既然我们已经导出了我们正在寻找的最优估计量,我们仍然需要将联合概率函数P(C,Y)参数化。

100
大多数88 在职认证  发表于 2022-6-15 15:57:11
因此,贝叶斯模型中有两个输入:似然函数和先验分布,我们在本节中重点讨论前一个量。在多变量框架中,最常见的假设(但不一定是最现实的)是测量过程Y是高斯的,也就是说,P(Y | C)=(2π)NTdet(C)Texp-TXt=1NXi,j=1YitC-1i,jYjt. (5.10)很容易看出这是Boltzmann类型,如等式(2.1)所示。更准确地说,使用跟踪操作符的cyclicproperty,一个getsTXt=1NXi,j=1YitC-1ijYjt=TrYC公司-1年*= T Tr欧共体-1..因此,N元高斯似然函数可以写成asP(Y | C)=(2π)NTexp-TTr公司对数(C)+EC-1.≡ P(E | C),(5.11),其中我们对任何方阵A使用雅可比公式det(A)=exp[Tr log A]。因此,我们可以将推理问题重写为样本协方差矩阵E的函数,尤其是MMSE估计量变为ΞMMSE≡ ΞMMSE(E)…=hCiP(C | E)。(5.12)经过一番思考,这种设置与上面第3章和第4章中开发的框架完全一致。事实上,在这些章节中,我们研究了样本协方差矩阵E的光谱特性,给出了C的极限光谱分布(第3.2.1节中介绍的所谓“直接问题”)。不同的是,Marˇcenko Pastur方程(3.9)有一个自然的Bayesian解释:它提供了E的(限制)谱密度,条件是我们在特定的先验概率集合中选择的总体协方差矩阵C。5.3. 共轭先验估计。一旦我们设置了似然函数,下一步就是关注先验分布P(C),记住最终目标是计算BayesPostrior均值估计量(5.12)。不幸的是,对非平凡计算和闭式估计量的后验概率分布的评估因此很少。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-23 22:28