楼主: 大多数88
865 15

[量化金融] 关于协方差矩阵最大特征值的高估 [推广有奖]

  • 0关注
  • 3粉丝

会员

学术权威

68%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
64.3941
学术水平
0 点
热心指数
4 点
信用等级
0 点
经验
23514 点
帖子
3880
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《On the overestimation of the largest eigenvalue of a covariance matrix》
---
作者:
Soufiane Hayou
---
最新提交年份:
2017
---
英文摘要:
  In this paper, we use a new approach to prove that the largest eigenvalue of the sample covariance matrix of a normally distributed vector is bigger than the true largest eigenvalue with probability 1 when the dimension is infinite. We prove a similar result for the smallest eigenvalue.
---
中文摘要:
本文用一种新的方法证明了当维数为无穷大时,正态分布向量样本协方差矩阵的最大特征值大于概率为1的真最大特征值。对于最小特征值,我们证明了类似的结果。
---
分类信息:

一级分类:Mathematics        数学
二级分类:Probability        概率
分类描述:Theory and applications of probability and stochastic processes: e.g. central limit theorems, large deviations, stochastic differential equations, models from statistical mechanics, queuing theory
概率论与随机过程的理论与应用:例如中心极限定理,大偏差,随机微分方程,统计力学模型,排队论
--
一级分类:Mathematics        数学
二级分类:Statistics Theory        统计理论
分类描述:Applied, computational and theoretical statistics: e.g. statistical inference, regression, time series, multivariate analysis, data analysis, Markov chain Monte Carlo, design of experiments, case studies
应用统计、计算统计和理论统计:例如统计推断、回归、时间序列、多元分析、数据分析、马尔可夫链蒙特卡罗、实验设计、案例研究
--
一级分类:Quantitative Finance        数量金融学
二级分类:Mathematical Finance        数学金融学
分类描述:Mathematical and analytical methods of finance, including stochastic, probabilistic and functional analysis, algebraic, geometric and other methods
金融的数学和分析方法,包括随机、概率和泛函分析、代数、几何和其他方法
--
一级分类:Statistics        统计学
二级分类:Statistics Theory        统计理论
分类描述:stat.TH is an alias for math.ST. Asymptotics, Bayesian Inference, Decision Theory, Estimation, Foundations, Inference, Testing.
Stat.Th是Math.St的别名。渐近,贝叶斯推论,决策理论,估计,基础,推论,检验。
--

---
PDF下载:
--> On_the_overestimation_of_the_largest_eigenvalue_of_a_covariance_matrix.pdf (313.03 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:协方差矩阵 协方差 特征值 Mathematical Differential

沙发
kedemingshi 在职认证  发表于 2022-6-1 05:54:31 |只看作者 |坛友微信交流群
关于高估协方差矩阵的最大特征值的问题,巴黎理工学院应用数学系,soufiane Hayou。hayou@polytechnique.eduAbstract.在本文中,我们使用一种新的方法证明了当维数为有限时,正态分布向量样本协方差矩阵的最大特征值大于概率为1的真实最大特征值。关键词:协方差矩阵、线性代数、随机矩阵理论1简介众所周知,当样本数与变量维数相比较大时,可以使用样本协方差矩阵精确估计相关矩阵:设p为维数,n为样本数,(Xi)1≤我≤t观察结果。样本协方差矩阵定义为:S=nnXi=1(Xi-\'\'X)(Xi)-其中X是X的转置,\'X是经验平均值。然而,当p与n相同时,样本协方差矩阵不是一个好的估计量。实际上,我们经验观察到,样本协方差矩阵倾向于对一大类协方差矩阵的最大(最小)特征值进行过度估计(低估)。关于这个主题有大量的研究论文。我们发现(一般而言)拟议方法有三大类:收缩到目标(如Ledoit和Wolf[4])、随机矩阵理论(N.El Karoui[5]、Bouchaud和Bun[3])和优化欠约束(如在[6]等条件数的约束下)。特别是,在[2]中已经证明,在极限谱(极限密度)的某些条件下,当p趋于完整(pn一致有界)时,最大样本特征值具有Tracy-Widom分布。利用这一点,我们可以很容易地证明,在这种情况下,概率1,我们高估了最大特征值。

使用道具

藤椅
nandehutu2022 在职认证  发表于 2022-6-1 05:54:34 |只看作者 |坛友微信交流群
然而,这些条件有时很难验证,并且[2]中的有效条件对经验密度施加了限制密度。我们的目标是克服这个问题,并在频谱上提供一些容易验证的条件,而不受任何限制。在本文中,我们使用文献[1]中关于最大特征值概率分布上界的结果表明,在某些假设下,当维数变为整数时,事件{样本的最大特征值>真协方差矩阵的最大特征值}的概率收敛到1。下面,S是样本协方差矩阵,∑是真协方差矩阵,l≥ l≥ ... ≥ lps的特征值λ≥ λ≥ ... ≥ λp∑和q=pn<1的特征值是维数与样本量的比值。在第一节中,我们介绍了随机矩阵理论中关于Wishart矩阵(Chi平方分布的多维推广)的一些经典结果,我们展示了第2节和第3.2节中Wishart矩阵的主要结果以及特征值的分布。在这一节中,我们展示了Wishart分布以及随机矩阵理论中的一些相关结果。

使用道具

板凳
mingdashike22 在职认证  发表于 2022-6-1 05:54:37 |只看作者 |坛友微信交流群
我们首先回顾Wishart矩阵的定义。定义:如果存在X,则p×p矩阵M称为具有协方差矩阵∑和自由度n的Wishart分布~ Nn×p(u,∑),使得M=XtX。我们用M表示~ Wp(n,∑)。当n≥ p、 Wishart分布的密度函数为:f(M)=-np/2Γp(n/2)(det(∑))n/2etr(-Σ-1M)(detM)(n-p-1) /2(1)其中etr是轨迹的指数,Γpis是广义伽马函数。当X~ Nn×p(u,∑),样本协方差矩阵S=nxxt具有Wishart分布Wp(n- 1,n∑)(证明见【11】。2.1特征线M的联合分布~ Wp(n,∑),其中n>p,则特征值l的联合分布≥ l≥... ≥ lpis由(见【11】)给出:g(l,l,…,lp)=πp/2×2-np/2(det∑)-n/2Γp(n/2)Γp(p/2)pYi=1l(n-p-1) /2ipYj>i(li-lj)佐佩特(-Σ-1HLHt)(dH)(2)式中,L=diag(L,L,…,lp),且积分在关于Haar测度的正交群Op上(见[8])。一般来说,积分很难估计。然而,当∑=λI时,我们有:ZOpetr(-Σ-1HLHt(dH)=佐佩特(-2λHLHt)(dH)=etr(-2λL)ZOp(dH)=exp(-2λpXi=1li)Haar测度是旋转不变的,这意味着对于任何正交矩阵Q,one有:d(QH)=dh利用这一点以及存在正交矩阵Q的事实,∑-1=QD-1qt当D=diag(λ,λ,…,λp)时,我们可以证明先前的分布仅取决于∑的特征值。我们知道S~ Wp(n-1,n∑),所以特征值l的联合分布≥ l≥...

使用道具

报纸
可人4 在职认证  发表于 2022-6-1 05:54:40 |只看作者 |坛友微信交流群
≥ 样本协方差矩阵的lpof由以下公式给出:g(l,l,…,lp)=πp/2(det∑)-(n)-1) /2Γp((n- 1) /2)Γp(p/2)(n- 1) p(n-1) pYi=1l(n-p-2) /2ipYj>i(li-lj)佐佩特(-n∑-1HLHt)(dH)2.2样本协方差矩阵最大特征值的分布S最大特征值的累积分布函数由以下公式给出:P(l<x)=ΓP(P+1)ΓP(P+n)det(n- 1Σ-1) (n)-1) /2F1,1(n- 1.氮+磷;-nx∑-1) (3)其中F1,1是具有矩阵参数的超几何函数(见[9])。这个函数很难计算,这使得前面的公式很难直接使用。下一个结果由R.J.Murhead在[1]中首次证明。定理I(Muirhead):设x为非负实数。下列不等式适用于任何p和n,使得p<n:p(l≤ x)≤pYi=1P(χn≤nxλi)(4)P(lp≤ x)≥ 1.-pYi=1P(χn≥nxλi)(5),其中χnis是具有n个自由度的卡方随机变量。由于发现超几何函数的边界仍然是一个有趣的主题,我们无法完全检查该边界的质量(唯一的检查方法是通过模拟)。2.3特例:Marchenko Pastur分布当∑=I时,Marchenko Pastur定理表明,样本特征值的经验分布在p→ ∞ (q=pn固定)到Marchenko Pasturd分布,由:mp(x)=2πp(λ)给出+- x) (十)- λ-)qxλ-≤x个≤λ+式中λ+=(1+√q) 和λ-= (1 -√q) 。图1显示了q=0.1时的Marchenko Pastur分布。图1:。

使用道具

地板
nandehutu2022 在职认证  发表于 2022-6-1 05:54:42 |只看作者 |坛友微信交流群
Marchenko Pastur分布q=0.13高估了最大特征值。在本节中,我们证明了在某些约束条件下,当维数变为整数(q=pn固定)时,事件l>λ的概率收敛到1。为了证明结果,将证明以下引理。引理1:Let(Ohm, P、 F)是概率空间,和(An),(Bn)两个事件序列(不必独立),limn→∞P(Bn)=1,那么我们有:lim supn→∞P(An∩ Bn)=lim supn→∞证明:我们有,P(An)∩ Bn)=P(An)+P(Bn)- P(An∪ Bn)并使用P(An∪ Bn)≥ P(Bn)和P(Bn)→ 1,我们得出结论。引理2:设χnbe是一个具有n个自由度的卡方随机变量,(an)是一系列正实数。然后对于任何递增和连续函数f和 > 0,我们有:lim supn→∞f(P(N(0,1))≤√n(an)-1)-)) ≤ lim支持→∞f(P(χn≤ nan))≤ lim支持→∞f(P(N(0,1))≤√n(an)-1)+))(7) 和lim supn→∞f(P(N(0,1))≥√n(an)-1)+)) ≤ lim支持→∞f(P(χn≥ nan))≤ lim支持→∞f(P(N(0,1))≥√n(an)-1)-))(8) 证明:我们知道χn=dZ+Z+…+ZNHERE(Zi)1≤我≤nare标准正态变量(分布相等)。由于高斯变量具有任意阶矩,我们可以使用中心极限定理,我们有:√n(χnn- (1)→dN(0,1)我们可以这样写:χnn=d1+√新西兰+√nn(9),其中Z~ N(0,1)和n=外径(1)(odmeansnConverge为0(分布)。我们知道,分布收敛到常数意味着概率收敛到同一常数。也就是说,我们可以写n=oP(1)。现在让我们 > 0

使用道具

7
kedemingshi 在职认证  发表于 2022-6-1 05:54:45 |只看作者 |坛友微信交流群
我们有:P(χn≤ nan)=P(Z+n≤√n(an)- 1) )=P(Z+n≤√n(an)- 1) , |n |<)+ P(Z+n≤√n(an)- 1) | |n |>)P(|n |>)我们也有,P(Z+ ≤√n(an)- 1), |n |<) ≤ P(Z+n≤√n(an)- 1) , |n |<)P(Z+n≤√n(an)- 1) , |n |<) ≤ P(Z-  ≤√n(an)- 1), |n |<)现在我们使用引理1和序列An={Z≤√n(an)- (1)- } 和Bn={|n |<} 对于左不等式和序列An={Z≤√n(an)- 1) + } andBn={|n |<} 对于右边的不等式。我们得出结论,因为limn→∞P(|n |>) = 0和f是不断增加和连续的。第二个不等式可以使用函数x从第一个不等式推导出来→ g(x)=-f(1- x) 这是不断增加和持续的。引理3:设F为标准正态变量的累积分布函数。那么以下不等式适用于任何实数x:x+√x+4≤rπex(1- F(x))≤x+qx+π(10)证明:对于任意实数y,我们使用以下不等式(公式[10]中的7.1.13)]:y+py+2≤ eyZ公司∞ye公司-tdt公司≤y+qy+π(11)我们使用x定义的新变量x=√2年,然后∞ye公司-tdt公司=√R∞xe公司-tdt。由此产生了不平等。现在,我们证明了本文的主要结果。定理II(主要结果):设p,n为两个正整数,使得q=pn<1是固定的,(λ1,p≥ λ2,p≥ ... ≥ λp,p)p>0a频谱序列(频谱∑)和(l1,p≥l2,p≥ ...

使用道具

8
kedemingshi 在职认证  发表于 2022-6-1 05:54:48 |只看作者 |坛友微信交流群
≥ lp,p)p>0相应样品光谱(S光谱)的序列。对于任何p,我们定义集合Jpby:Jp={i:For all m≥ p、 |λ1,mλi,m- 1| <√m} (12)和Jp的基数(Jp中的元素数):φ(p)=| Jp |那么,φ(p)是递增的,当p→ ∞, 存在一个常数c>0,对于任何p>0的情况,lim supp→∞P(l1,P≤ λ1,p)≤ lim供应→∞e-c×φ(p)=e-c×跛行→∞φ(p)(13)因此,我们得到:limp→∞φ(p)=∞ => 无力的→∞P(l1,P≤ λ1,p)=0(14)之前的结果可以解释如下:当NP变为不确定时,如果集合JP的元素数不确定,则当维度不确定时(q固定),样本协方差矩阵以概率1高估了最大特征值。证明:设x为非负实数,且 > 我们回顾Muirhead的上界:P(l1,P≤ x)≤pYi=1P(χn≤nxλi,p)我们想证明当p→ ∞. 由于它是非负的,我们将证明相同数量的极限优势收敛到0。我们使用以下符号:xi,n=√n(λ1,pλi,p- 1) ,我≤ p=qnai,n=(p(χn≤nλ1,pλi,p)i≤ p=qn1 i>p=qnandbi,n=(p(n(0,1))≤√n(λ1,pλi,p- 1) + ) 我≤ p=qn1 i>p=qn我们有:lim supp→∞对数(pYi=1P(χp/q≤p/qλ1,pλi,p))≤ lim支持→∞∞Xi=1log(ai,n)≤∞Xi=1lim supn→∞日志(ai,n)≤∞Xi=1lim supn→∞log(bi,n)(引理2)≤∞Xi=1lim supn→∞日志(1- zi,n)(引理3)其中,对于i≤ qn,zi,n=rπe-(xi,n+)xi,n+ +p(xi,n+)+ 4(15)和zi,否则n=0。

使用道具

9
kedemingshi 在职认证  发表于 2022-6-1 05:54:51 |只看作者 |坛友微信交流群
我们知道,对于任何实数x<1,我们有log(1-x)≤ -x、 很明显,对于任何i和n,zi,n<1(自xi,n, ≥ 0),因此,对于任何p(andn=pq),我们有:∞Xi=1supm≥nlog(1- zi,m)≤∞Xi=1supm≥n-zi,m≤∞Xi=1- infm公司≥nzi,m=-∞Xi=1英寸≥nzi,mNow,使用不等式(xi,m+)≤ 2(xi,m+), 事实上∈ Jp=Jqn,| xi,m |≤ 1 (m级≥ n) ,我们有我∈ 日本,m级≥ n:zi,m≥rπe-2(xi,m+)xi,m+ +p(xi,m+)+ 4因此,zi,m≥rπe-2(1+)1 +  +p(1+)+ 4因此,infm≥nzi,米≥rπe-2(1+)1 +  +p(1+)+ 4这给了我们以下不等式:∞Xi=1英寸≥nzi,米≥ φ(qn)rπe-2(1+)1 +  +p(1+)+ 4注意φ(p)在增加,所以它有一个极限。使用单调收敛定理(自i、 m日志(1- zi,m)≤ 0),∞Xi=1lim supn→∞日志(1- zi,n)=limn→∞∞Xi=1supm≥nlog(1- zi,m)≤ - 画→∞∞Xi=1英寸≥nzi,米≤ - 画→∞φ(qn)c因此,lim supp→∞pYi=1P(χp/q≤p/qλ1,pλi,p)≤ e-c×跛行→∞φ(p),其中c=qπe-2(1+)1++√(1+)+因为这对任何 > 0,然后(两种情况下都是跛行→∞φ(p)最终或最终)我们有:lim SUPPT→∞pYi=1P(χp/q≤p/qλ1,pλi,p)≤ e-c×跛行→∞φ(p)(16),其中c=qπe-11+√.利用Muirhead不等式,我们得出结论:lim supp→∞P(l1,P≤ λ1,p)≤ e-c×跛行→∞φ(p)(17)注意,该定理适用于任何序列(xp)(而不仅仅是序列(λ1,p))。这证明了以下推论:推论1:设(xp)p>0是一个正实数序列。我们通过:Jp(x)={i:对于所有m≥ p、 | xmλi,m- 1| <√m} (18)和,φ(x,p)=| Jp(x)|(19)然后对于任何序列x,使得跛行→∞φ(x,p)=∞ 我们有那个跛脚→∞P(l1,P≤xp)=0。这意味着,对于维度变为完整时未与频谱隔离的任何序列x,概率为1,最大样本特征值的序列大于x(元素)。

使用道具

10
nandehutu2022 在职认证  发表于 2022-6-1 05:54:54 |只看作者 |坛友微信交流群
注意,如果x有一个极限γ,则最大样本特征值大于γ,概率为1.4低估了最小特征值。在本节中,我们表明,当维数为有限时,样本协方差矩阵低估了概率为1的最小特征值。这个结果为真的约束条件与前面的定理略有不同,但证明是相似的。定理三:设p,n为两个正整数,使得q=pn<1是固定的,(λ1,p≥λ2,p≥ ... ≥ λp,p)p>0a频谱序列(频谱∑)和(l1,p≥ l2,p≥ ... ≥ lp,p)p>0相应样品光谱(S光谱)的序列。对于任何正整数和正实数κ,我们定义了集Hp,κby:Hp,κ={i:对于所有m≥ p、 |λm,mλi,m- 1| <κ√m} (20)和集Hp的基数,κ:ξ(κ,p)=Hp,κ|那么,对于任何κ<qπ,存在cκ>0,使得:lim infp→∞P(lp,P≤ λp,p)≥ 1.- lim供应→∞e-cκξ(κ,p)(21)因此,我们有:对于任何κ<qπ,limp→∞ξ(κ,p)=∞ => 无力的→∞P(lp,P≤ λp,p)=1(22)证明:Let > 0和κ>0,使得κ<qπ。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-11-4 11:47