楼主: mingdashike22
2166 165

[量化金融] 清理大型相关矩阵:来自随机矩阵理论的工具 [推广有奖]

101
kedemingshi 在职认证  发表于 2022-6-15 15:57:18
尽管如此,仍然存在一些类别的先验分布,其中后验分布可以精确计算。我们感兴趣的是统计学中的“共轭先验”类。粗略地说,假设我们知道似然分布P(E | C),那么如果先验分布P(C)和后验分布P(C | E)属于同一个分布族,则称其为共轭分布。作为一个例子,让我们先考虑一个热身的例子,然后再回到卵巢的估计。假设我们想要估计平均向量,比如u,给定我们观察到的N维向量数据y。此外,假设似然函数是具有已知协方差矩阵σIN的多元高斯分布。然后,通过在u上取一个高斯先验,其中“均值”和“协方差”矩阵τIN为零,可以很容易地检查p(u| y)=NNττ+σy,τστ+σIN!。(5.13)因此,μ的Bayes MMSE(5.9)由huiP(uy)=1给出-σσ+ τ!y、 (5.14)粗略地说,这就是著名的詹姆斯·斯坦估计量。事实上,James Steinestimator使用证据P(y),这种方法被称为经验Bayes(有关更多详细信息,请参见本节末尾)。现在人们可能想知道,我们是否可以将这种共轭先验性质推广到方差矩阵的情况,其测量过程由等式(5.11)中给出的似然函数P(E | C)表示。再次,我们将看到共轭先验方法产生了一个非常有趣的结果。使用(2.1)和第2.2节中介绍的势理论形式,很容易从等式中看出。(5.11)与高斯似然函数相关的势函数readsVq(E,C)=2q对数(C)+EC-1., (5.15)这显然是(2.58)中在外部电场E存在的情况下遇到的逆Wishart分布。

102
kedemingshi 在职认证  发表于 2022-6-15 15:57:22
因此,让我们引入一个具有两个超参数{γ,κ}asa的逆Wishart系综,对于C:P(C)=Z exp-NTr公司γlog C+κC-1.,Z是一个依赖于γ、κ和N的归一化常数。为了简单起见,我们将Hcip(C)=加在一起,很容易得到(忽略O(N)中的项-1) γ=κ+1。这是我们今后通过的公约。利用Bayes规则和高斯似然函数(5.11),我们发现后验分布也是一种逆Wishart分布,其形式为:P(C | E)∝ 经验值-Tr公司(T+ν+N+1)log C+T(2qκIN+E)C-1., (5.16)其中我们定义了ν:=N(2κ+1)-因此,我们期望Bayes估计量与James Stein估计量(5.14)明确相似,而ΞMMSEis的最终结果来自(2.59):ΞMMSE=TT+ν- N- 1(2qκIN+E)。(5.17)该估计器被称为线性收缩估计器,首次获得于[15],Ξlin=TT+ν- N- 1(2qκIN+E)≈1+2qκE+2qκ1+2qκIN+O(T-1) ,(5.18)更准确地说,它是一个逆Wishart分布IWN(N,N(2γ- 1) - 公式(2.58)中定义了1,2NκIN)。我们用T的地方→ ∞ RHS中的q=N/T定义。总之,我们导出了线性收缩估计量:Ξlin=αsE+(1- αs)其中αs=1+2qκ∈ [0, 1], κ > 0 . (5.19)对于James Stein估计量,该估计量告诉我们将样本协方差矩阵收缩到单位矩阵(我们的先验)上,强度由αs给出。我们在图5.1中给出了该估计量如何转换特征值的简单说明。特别是,我们看到小特征值向上提升,而顶部特征值向下拉动。此外,很容易看出该估计器与样本协方差矩阵E共享相同的特征向量。

103
kedemingshi 在职认证  发表于 2022-6-15 15:57:26
该属性在以下方面很重要。剩下的问题是,我们如何始终如一地选择参数κ(或直接选择αs),以便在实践中使用该估计器?在[15]中,哈夫推广了一种经验贝叶斯方法,类似于詹姆斯和斯坦[12]的工作。在高维领域,Ledoit&Wolf【16】注意到,这种方法可能会因经典估计量变得不可靠而受到影响,因此提出了αs的一致估计量。也有更直接的方法可以使用RMT工具直接从数据中估计参数κ。我们在第7.2.1节中总结了所有这些方法。最后可能会注意到,上述线性收缩估计的推导可以扩展到先验值不同于单位矩阵的情况。假设C的先验分布是广义逆Wishart分布:P(C)=Z exp-NTr公司γlog C+κCC-1.,其中,CI是一个矩阵(称为基本矩阵或先验矩阵),其可能具有非平凡的结构,编码我们对当前问题的看法。在这种情况下,很容易看出上述线性估计仍然成立,其中:Ξlin=αsE+(1- αs)Cαs∈ [0, 1]. (5.20)注意,当C6=IN时,P(C)不再具有旋转不变性。一个简单的示例是选择秒=(1- ρ) IN+ρJ,其中J的所有元素都等于单位。这对应于金融应用中的单因素模型,其中任何一对股票之间的相关性都是恒定的。这也可以看作是尖峰相关模型,如上文(3.56)所示,其中C=in,r=1,v=(1,1,…,1),d=(N- 1)ρ.现在,我们通过“不可观测”James Stein估计量(5.14)提出了经验Bayes方法。为了直接从数据中估计参数,这种方法是有用的,但它要求能够准确计算边际分布。

104
nandehutu2022 在职认证  发表于 2022-6-15 15:57:32
如果我们重新考虑估计量(5.14)的框架,不难看出(5.2)中定义的证据P(y)由P(y)给出~ NN(0,(σ+τ)IN)。(5.21)回想(5.14),我们的目标是估算σ/(σ+τ)的比率,其中σ是已知的。为此,我们从(5.21)中注意到y~ (σ+τ)χN,(5.22),其中·是Lnorm,χ是N个自由度的卡方分布。因此,通过极大似然估计,我们可以得出σ×max(N- 2, 0)y≈σσ+τ,(5.23)0 1 2 3 4 5样本特征值012345清洁特征值无清洁线性收缩图5.1。与样本特征值(黑线)相比,αs=0.5的线性收缩(5.19)对特征值(蓝线)的影响。我们看到小特征值向上移动,大特征值向下移动。从而得出式(5.14)中不可观测项的估计值。因此,如果我们将这个样本估计插入(5.14),它会产生著名的James Stein估计:^uJS=1-σ×最大值(N- 2, 0)y!y,(5.24),它改进了当N>3.5.4时高斯种群平均值的最大似然估计。旋转不变先验估计。上述共轭先验类估计器的主要缺点是,它没有利用样本相关矩阵E的观测光谱密度中包含的大量信息。事实上,我们知道,它的Stieltjes变换gE(z)必须遵守与gC(z)相关的Marˇcenko Pastur方程,对于任何属于逆Wishartensemble的C,都不能保证服从这个关系。更准确地说,即使对于参数κ的最佳选择,gE(z)确实对应于具有反Wishart矩阵的特定gC(z)的可能性在N中也是指数小的。

105
可人4 在职认证  发表于 2022-6-15 15:57:37
这就是贝叶斯方法在大N极限下的特点:Cbelongs实际上受到Marˇcentko-Pastur关系的极强约束。在本节和下一章中,我们将讨论如何在实践中实现这些约束,从而构造C的真正一致估计量。让我们考虑一类属于Boltzmann类的旋转不变先验分布,公式(2.1),即P(C)∝ 经验值[-N Tr V(C)](5.25),其中V表示势函数。因此,很容易看到爪=OhmCOhm*对于任意N×北正交矩阵Ohm ∈ O(N)。换句话说,C的特征基在任何特定方向上都没有偏差。此外,使用高斯似然函数(5.11),后验分布读数为:P(C | E)=Zexph-N Tr V(C,E)i,V(C,E)…=Vq(C,E)+V(C),(5.26),其中Vq在等式(5.15)中定义。因此,可以推导出等式:P(C | E)=P(OhmCOhm*|OhmEOhm*), (5.27)因此,Bayes MMSE估计器等式(5.9)服从以下性质:hCiP(C | E)=ZOhmCOhm*P(OhmCOhm*|E) DC=OhmZCP(C|Ohm*EOhm)直流Ohm*≡ OhmhCiP(C|Ohm*EOhm)Ohm*(5.28)我们改变变量C的地方→ OhmCOhm*并在最后一步中使用公式(5.27)。现在我们可以随时选择Ohm = U使U*欧盟是对角线。在这种情况下,使用对称参数不难说服自己hCiP(C | U*EU)也是对角线。上述结果简单地表示,一般而言,C的MMSE估计量与E在相同的基础上是对角的——参见Takemura【129】和其中的参考文献:ΞMMSE=UΓ(λ)U*, (5.29)美国∈ RN×Nis E和Γ(λ)=diag(γ(λ),γN(λ))是一个N×N对角矩阵,其条目是样本特征值∧=对角(λ,λ,…,λN)的函数。我们看到,假设先验旋转不变,贝叶斯估计问题被简化为寻找一组最优特征值γi(∧)。

106
nandehutu2022 在职认证  发表于 2022-6-15 15:57:41
该框架与线性收缩估计量(5.19)完全一致,其中γi(λ):=αsλi+(1- αs),可以看作是广义收缩估计量。在详细讨论Γ(λ)的显式形式之前,让我们假设C的先验分布具有旋转不变性。假设我们没有关于N维空间中可能的特权方向的先验信息,这将允许我们在这些特殊方向上偏移估计器Ξmms的特征向量。在这种情况下,我们估计量Ξmmsemu的唯一合理的特征基必须是我们所掌握的(有噪声的)观测值E,这是有意义的。任何满足式(5.28)的估计量将被称为旋转不变估计量(RIE)。然而,我们强调,当电子揭秘一些非平凡结构时,这种假设不是最优的。一个例子是财务相关矩阵的顶部特征向量,它明显偏向(1,1,…,1)方向。然而,处理此类非旋转不变量对象更为困难(有关此主题的讨论,请参见[38,40]和第9章)。我们现在可以在RIEs类中导出最优Bayes估计的显式形式。估计量Ξmms的特征分解(5.29)表明γi的特征值≡ γi(λ)可以写成γi=hui,hCiP(C | E)uii,其中我们使用了hCiP(C | E)在U基上是对角的事实。经过一番思考,我们可以看到以下身份成立:NTr(zIN)- E)-1hCiP(C | E)=NNXi=1γiz-λi,(5.30),这将允许我们提取我们正在寻找的γiwe,即确定Bayes估计器的最佳收缩函数(5.29)。

107
何人来此 在职认证  发表于 2022-6-15 15:57:44
为此,我们调用了通常的自平均性质,该性质适用于非常大的N,因此我们可以在最后一个方程中取E的边际概率的平均值,得到:Tr(zIN)- E)-1hCiP(C | E)=Tr公司(zIN)- E)-1hCiP(C | E)P(E)=Tr公司(zIN)- E)-1C级P(C | E)P(E)。(5.31)使用Bayes公式(5.1),我们重写了最后一个方程Asr(zIN)- E)-1hCiP(C | E)=Tr公司(zIN)- E)-1C级P(E | C)P(C)=Trh公司(zIN)- E)-1.P(E | C)CiP(C)。(5.32)我们在最后一行中认识到,对于给定的人口矩阵C,E的Stieltjes变换的定义,这允许我们使用第3章和第4章中介绍的Marˇcenko Pastur形式主义。因此,由于特征值λi在极限N内是确定的→ ∞ (见第3章),我们得出大型NNTr(zIN)- E)-1hCiP(C | E)≈ZρE(λ)dλZ-λNXj=1ujΦ(λ,uj)C、 (5.33)其中Φ(λ,u)是等式(4.3)中定义的均方重叠。通过比较等式。(5.30)和(5.33),我们可以很容易地得出γ(λ)≡ γ(λ) =NXj=1ujΦ(λ,uj)C~ZuΦ(λ,u)ρC(u)du,(5.34),其中我们再次使用“遍历假设”【127】作为N→ ∞ 在最后一步中。因此,我们可以看到,在大N限值下,我们能够找到Bayes估计量(5.29)的最优收缩函数γ的闭合公式,该公式取决于第4章中研究的均方重叠和先验谱密度ρC。不同的是,最终结果等式(5.34)是明确的,但似乎仍取决于我们为C选择的先验值。事实上,正如我们将在下一章中看到的,等式(5.34)可以根据E本身的知识进行估计,也就是说,无需对先验知识做出任何明确的选择!这与我们在本节开始时的讨论一致:对于大N,观察E的光谱分布足以确定C所属的正确的先验系综。为了说明结果(5.34),我们在本节末尾进行了自一致性检查。

108
kedemingshi 在职认证  发表于 2022-6-15 15:57:47
如上所述,非线性收缩函数(5.34)概括了线性收缩(5.19)。为了强调这一点,我们假设C是各向同性的逆Wishart矩阵,因此先验谱密度ρCis由等式(2.53)给出。我们在图5.2中绘制了我们使用ourBayes估计器(5.19)(红点)获得的特征值,这些特征值来自E的单个实现,C是大小为N=500的逆Wishartmatrix。已选择先验分布参数,使收缩强度等于一半。我们看到,一致性非常好,显示了遍历假设的有效性,同时,在这个特殊的例子中,也显示了RI-Bayes估计量(5.34)的有效性。在第6.4.2节中,我们将明确指出,当C是各向异性逆Wishart矩阵时,等式(5.33)再现了等式(5.19)。0 1 2 3 45λ0.511.522.53λ^线性收缩(α=0.5)Rie图5.2。我们的分析RI-Bayes估计量(5.34)(红点)与理论结果Q的比较。(5.19)(蓝线)当先验分布为逆Wishart(2.58)时。参数为N=500、q=0.5和αs=0.5.6。一般协方差矩阵的最优旋转不变估计6.1。Oracle估计器。在前一章中,我们介绍了一个贝叶斯框架,以使用我们所掌握的数据Y来构建总体相关矩阵C的估计量。我们表明,使用共轭先验假设自然会产生一类线性收缩估计量,这可以说是对这一主题最有影响力的贡献之一。它被成功地用于许多环境中,作为一种在高维环境中提供抗噪声鲁棒性的简单方法(参见[10、15]或[130],了解更多最新评论)。然而,关于这个估计器的主要担忧是,对于largeN来说,共轭先验系综在手头的数据中是不可能的。

109
kedemingshi 在职认证  发表于 2022-6-15 15:57:52
为了充分利用样本相关矩阵的谱密度信息,我们引入了一类旋转不变先验分布。在此框架下,我们导出了在大维数极限下有效的最小均方误差(MMSE)估计量的显式公式,该公式可以看作是一个非线性收缩过程。在这一章中,我们想说明得到的估计量也可以理解为所谓的“oracle”估计量。这种观点的变化非常有趣,因为它表明上述贝叶斯估计量的基础比预期的要广泛得多。假设一个人实际上知道总体矩阵C,因此得名“甲骨文”,但他决定创建一个C的估计量,该估计量被限制为具有预定的特征基U。(在实践中,该特征基将是样本相关矩阵E的特征基)。估计真矩阵C的最佳方法是什么?这个基本的想法乍一看可能很奇怪,因为我们根本不知道C!但正如我们将在下面看到的,oracle估计量将与MMSE估计量一致,对于大N,MMSE估计量完全可以用可观测量表示。更准确地说,让我们引入实对称有限正N×N矩阵的集合M(U),这些矩阵在基U=[ui]i上是对角的∈[1,N]。Lsense中M(U)中C的最优估计量由:Ξora给出argminΞ∈M(U)Ξ -C五十、 (6.1)发现这个二次优化问题的解很简单,如:Ξora=NXi=1ξora。iuiu*i、 ξora。i=hui,Cuii。(6.2)这提供了C的最佳估计量,因为我们“坚持”使用特征基i∈[[1,N]]。如果我们将其改写为C的IGenvectors的函数,即ξora,则可以更好地理解该估计量的含义。i=NXj=1ujhui,vji。

110
mingdashike22 在职认证  发表于 2022-6-15 15:57:55
(6.3)事实上,我们从最后一个方程中可以看出,oracle估计量是由总体特征值的加权平均值给出的,其权重是由从强制基Ui到真基Vjj的过渡给出的∈ [[1,N]]。因此,“oracle”估计器(6.2)明确使用了估计器位于错误基础的事实。回到我们对给定样本矩阵E的C的估计,很明显,如果我们对C的真实特征基没有任何信息,唯一的可能性是使用E本身的特征基作为U。这相当于C的旋转不变先验分布的假设,但我们这里不依赖任何贝叶斯参数。现在,我们注意到在极限N→ ∞,[ξora.i]i的预言特征值∈[[1,N]]确实等同于RI-Bayes-MMSE公式(5.34),但在等式(6.2)中,总体矩阵C是(确定性)一般协方差矩阵。Bayes估计量(5.34)和无条件估计量之间的等价性并没有超出大N限,并且在不同的上下文中已经提到过[130131]。6.2. 最优RIE的显式形式。出于实际目的,oracle估计器(6.2)看起来毫无意义,因为它涉及矩阵C,而矩阵C正是我们希望估计的数量。但在高维极限下,发生了一种“奇迹”,即oracle估计收敛到不再涉及矩阵C的确定性RIE。让我们推导出这一公式,首先计算整体特征值,然后计算异常值——更令人惊讶的是,这两种情况下的最终表达式完全相同。6.2.1. 大宗商品。最近的不同工作考虑了有限维极限下体积特征值的最优非线性收缩函数的推导。第一个是Ledoit&P’ech’e的工作【36】。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-24 02:43