楼主: mingdashike22
1577 25

[量化金融] 高维金融数据的若干统计问题 [推广有奖]

  • 0关注
  • 3粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
73.8816
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
24862 点
帖子
4109
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
mingdashike22 在职认证  发表于 2022-6-10 09:36:49 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Some Statistical Problems with High Dimensional Financial data》
---
作者:
Arnab Chakrabarti, Rituparna Sen
---
最新提交年份:
2018
---
英文摘要:
  For high dimensional data, some of the standard statistical techniques do not work well. So modification or further development of statistical methods are necessary. In this paper, we explore these modifications. We start with the important problem of estimating high dimensional covariance matrix. Then we explore some of the important statistical techniques such as high dimensional regression, principal component analysis, multiple testing problems and classification. We describe some of the fast algorithms that can be readily applied in practice.
---
中文摘要:
对于高维数据,一些标准的统计技术不能很好地工作。因此,有必要对统计方法进行修改或进一步发展。在本文中,我们将探讨这些修改。我们从估计高维协方差矩阵的重要问题开始。然后,我们探讨了一些重要的统计技术,如高维回归、主成分分析、多重检验问题和分类。我们描述了一些易于在实践中应用的快速算法。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--

---
PDF下载:
--> Some_Statistical_Problems_with_High_Dimensional_Financial_data.pdf (549.25 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:金融数据 统计问题 Modification Quantitative Econophysics

沙发
nandehutu2022 在职认证  发表于 2022-6-10 09:36:54
高维金融数据的一些统计问题Arnab Chakrabarti和Rituparna SenAbstract对于高维数据,一些标准的统计技术不能很好地工作。因此,有必要修改或进一步发展统计方法。在本文中,我们探讨了这些修改。我们开始研究估计高维协方差矩阵的重要问题。然后,我们探讨了一些重要的统计技术,如高维回归、主成分分析、多重测试问题和分类。我们描述了一些可以在实践中直接应用的快速算法。1简介现代金融系统(如公司或银行)之间的高度相互依赖性通过网络G(V,E)的建模来实现,其中V中的每个节点代表一个金融机构,E中的一个边缘代表两个此类机构之间的依赖性。边缘通过计算金融机构对的设定价格之间的相关系数来确定。如果样本的径向相关系数大于某些预先定义的阈值,则在相应的节点之间形成一条边。该网络模型有助于回答金融市场上的重要问题,如确定市场中的集群或部门、发现投资组合多元化的可能性或调查程度分布[4]、[29]。如需有关此类网络的说明,请参见图1。使用相关系数来构建经济或金融网络存在严重缺陷。

藤椅
可人4 在职认证  发表于 2022-6-10 09:36:58
如果有人对两个金融机构的直接依赖感兴趣,请发送电子邮件:arnab@isichennai.res.inRituparnaSenIndian统计研究所,钦奈电子邮件:rsen@isichennai.res.in2Arnab Chakrabarti和Rituparna Seninstitutes观察到的高度相关性可能是由于其他机构的影响。因此,偏相关是研究直接相关性的最合适的方法。相关系数和偏相关系数分别与协方差矩阵和逆协方差矩阵相关。因此,为了对金融网络的复杂系统进行有意义的推断,准确估计协方差矩阵至关重要。本文研究了基于协方差矩阵的高维数据推理是如何产生问题的,以及如何解决这个问题。图1【21】所述后欧元时期欧洲经济体的网络拓扑图。论文的其余部分组织如下。第二节讨论协方差矩阵特征值的分布。第三节讨论了协方差矩阵估计的问题和可能的解。第4节讨论精度矩阵的估计。第5节和第6节分别讨论了多重测试过程和高维回归问题。我们在第7节和第8节讨论了高维主成分分析和几种分类算法。一些高维金融数据的统计问题32特征值的分布2.1协方差矩阵的特征值在多元统计理论中,样本协方差矩阵是最常见和无可争议的估计量,因为它是无偏的,并且在变量数固定时具有良好的大样本性质,观测值数量不断增加。

板凳
可人4 在职认证  发表于 2022-6-10 09:37:02
但如果变量数(p)与观测值数(n)之比较大,则样本协方差的表现不符合预期。可以看出,如果p以与n相同的速率增长,即p/n→ y>0)样本协方差矩阵变得不一致,因此无法应用[28]。在图e 2中,绘制了p和n的不同值的总体协方差矩阵和样本协方差矩阵的特征值,其中总体协方差矩阵是单位矩阵ix。很明显,随着比值/n的增长,真实光谱和样品光谱差别很大。因此,对于高维数据(p/n→ y>0)需要找到一个改进的估计量。尽管样本特征值不再一致,但样本协方差矩阵特征值的极限分布及其与总体协方差矩阵的极限特征值分布的联系是重要的。确定极限光谱分布对于测试模型的基本假设非常有用。在本节中,我们将简要讨论随机矩阵理论的一些结果,以回答这类问题。自始至终,我们将表示r atio p/nas yn。2.2 Marchenko Pastur定律和Tracy Widom定律假设{xij}是方差为σ的iid高斯变量。Ifp/编号→ 当y>0时,样本协方差矩阵sn的经验谱分布(e igenvalue的分布函数)几乎肯定会收敛到密度f(x)=2πσyxp(b)的分布f- x) (十)- a) I(a)≤ x个≤ b) 如果y<1,其中a=a(y)=σ(1-√y) b=b(y)=σ(1+√y) 。如果y>1,则需要额外的正质量1-yat 0。σ称为比例参数。

报纸
何人来此 在职认证  发表于 2022-6-10 09:37:05
该分布称为Marchenkopastr分布。Ifp/编号→ 0则Wn=qnp(Sn)的经验光谱分布- σI)几乎肯定会收敛到半圆定律,密度为:4 Arnab Chakrabarti和Rituparna Senf(x)=2πσp4σ- xI(| x |≤ 2σ)虽然s样本特征值不是一致估计量,但极限谱分布与总体协方差矩阵有着特殊的关系。如果p也是→ ∞ 和n→ ∞ 这样的话pn→ y>0,然后λ-unpσnpL→ 其中λ是样本协方差unp=(√n个+√p) 和σnp=(√n个+√p)(√n个+√p) 和Wis Tracy Widom Law分布。图2真实(虚线)和s示例(实线)特征值图。3协方差矩阵估值器3.1 Stein方法我们从图2中可以看出,样本特征值与人口值之间存在很大差异。因此,将特征值缩小到中心值是一种合理的方法。Stein[26]提出了这种估计量,并采用以下形式:一些高维财务数据的统计问题5∑=∑(S)=Pψ(λ)P′,其中∧=diag(λ,λ,…,λP),ψ(λ∧)也是一个诊断矩阵。如果ψ(λi)=λii∑是通常的估计量S。在这种方法中,特征向量保持原样,但特征值向中心值收缩。由于Igen向量没有改变或正则化,这种估计器被称为旋转等变协变量估计器。为了选择ψ,我们可以使用熵损失函数l=tr(^∑∑)-1) - 对数(^∑∑)-1) - por Frobeneous损失函数L=tr(^∑∑)-1.- 一) 。在熵风险(=E∑(L))下,αi中有ψ(λi)=λ,其中αi=(n- p+1+2λi∑i6=jλi- λj)。这个估计器的唯一问题是,特征值的一些本质属性,如单调性和非负性,无法保证。可以采用一些修正,以迫使估计器满足这些条件(见[18]和[20])。

地板
能者818 在职认证  发表于 2022-6-10 09:37:10
文献[27]中提出了一种算法,通过将相邻的估计器合并在一起,避免了这种不确定的情况。在该算法中,首先将负αi与先前的值合并,直到其变为正,然后为了保持单调性,将估计值(ψ′)成对地合并在一起。3.2 Ledoit-Wolf型估计器作为上述方法的替代方法,经验Bayes估计器也可用于缩小样本协方差矩阵的eig值。[14] 建议通过∑=np估算∑- 2n个- 2npαeI+nn+1S,其中αe=(det(S))/p。该估计量是S和I的线性组合,这是合理的,因为尽管S是无偏的,但对于高维数据它是高度不稳定的,并且αI的变异性很小,可能具有高偏差。因此,更一般的估计形式是∑=αT+αS6 Arnab Chakrabarti和Rituparna Sen,其中T是正定义矩阵,α(收缩强度参数),α可以通过最小化损失函数来确定。例如【17】usedL(^∑,∑)=ptr(^∑)- ∑)获得T=I的一致估计量。通过收缩参数值实现偏差和方差之间的权衡。图3中,根据仪器收缩参数绘制了偏差、方差和均方误差。

7
mingdashike22 在职认证  发表于 2022-6-10 09:37:13
收缩强度的最佳值为MSE最小的值。可以证明,如果存在n的种类依赖性,那么P/n≤ kandpPpi=1E[彝语]≤ k其中yi是X和iflimn的主成分矩阵的任何一行的第i个元素→∞pn×P(i,j,k,l)∈Qn(Cov[YiYj,YkYl])基数(Qn)=0,其中qndente表示由1和p之间的四个不同整数组成的所有四倍体的se t,然后是以下估计量*n(一个凸组合o fI和S)对于∑是一致的,参见[17]:S*n=bndnmnIn+dn- bndnSnwhere Xk。是X的第k行,mn=ptr(S′nIn)dn=kSn- mnInkbn=最小值(dn,nnXk=1kX′k.Xk。- Snk)。第一个条件首先涉及样本大小、维度和力矩之间的相互作用,而第二个条件涉及依赖结构。用于P/n→ 0依赖结构的最后一个条件可以通过力矩假设进行简单验证。这个估计值在计算上也很容易处理。事实上,由于S仍然是无偏估计量,减少方差的一种可能方法是使用bootstrap相关技术,如bagging。但与此方法相比,这在计算上需要更多。附加假设var(Ppi=1Yip)有界为n→ ∞,[17] 表明Limn→∞[E | |序号- ∑n||-pn(mn+var(Ppi=1Yip))]=0高维财务数据的一些统计问题7该结果意味着样本协方差矩阵的预期损失,尽管有界,但通常不会消失。因此,只有当n→ 0或mn+var(Ppi=1Yip)→ 在后一种情况下,大多数r和OM变量都是符号退化的。这两种情况之间的区别在于,在第一种情况下,变量的数量与n相比非常少,而在后一种情况下,O(n)退化变量与早期批次相比增加。这些基本上都表明了稀疏性。无花果

8
何人来此 在职认证  发表于 2022-6-10 09:37:15
3误差与遮蔽强度的关系图【17】可以使用更一般的目标矩阵T来代替I。例如,在高斯分布下,如果T=tr(S)/pI,α=λ(强度参数),α=1- λ、 则最佳s收缩强度为min(Ppi=1 | | xix′i- S | | Fn[tr(S)- tr(S)/p],1),这意味着收缩估计量是有效统计量的函数,因此可以使用Rao-Blackwell定理进一步改进。结果估值器变为λRBLWT+(1-λRBLW)S,其中λRBLW=n-第2个tr(S)+tr(S)(n+2)[tr(S)-tr(S)p]如果我们取T=Diag(S),即S的对角元素,那么使E最小化的最佳强度[k∑]- ∑k]可估计为8 Arnab Chakrabarti和Rituparna Senn(^a+p^a)-不适用*n+1 n^a+pn^a-n+2n^a*式中,^a=/ptr(S),^a=n(n-1) (n+2)p[trS-n(trS)],^a*=nn+2tr(T)/p如【11】所示。

9
能者818 在职认证  发表于 2022-6-10 09:37:19
[25]选择收缩参数为λ* =Ppi=1^var(si)- ^cov(ti,si)-^偏差(si)(ti- si)Ppi=1(ti- si)。除了传统目标矩阵(I)外,他们还使用了下表中总结的五个其他目标矩阵。表1目标A:“诊断,单位方差”0估计参数Stij=(1如果i=j0如果i 6=j^λ*=Pi6=j’var(sij)+Pi=j’var(sii)Pi6=jsij+Pi(sii-1) 目标B:“对角线,共同方差”1估计参数:vtij=(v=平均值(sii),如果i=j0,如果i 6=j^λ*=Pi6=j'var(sij)+Pi'var(sii)Pi6=jsij+Pi(sij-v) 目标C:“共同(co)方差”2估计参数:v,ctij=(v=平均(sii)如果i=jc=平均(sij)如果i 6=j^λ*=Pi6=j’var(sij)+Pi=j’var(sii)Pi6=j(sij-c) +Pi(sij-v) 目标D:“对角线,不等方差”p估计参数:siitij=(v=siiif i=j0,如果i 6=j^λ*=Pi6=j'var(sij)Pi6=jsijTarget E:“完全正相关”p估计参数:sijtij=(siiif i=j√sijsjiif i 6=jfij={qsjjsii^Cov(sii,sij)+qsiisjj^Cov(sjj,sij)}λ*=Pi6=j’V ar(sij)-fijPi6=j(sij-√siisjj)目标F:“常数c相关性”p+1估计参数,sii,\'rtij=(siiif i=j'r√sijsjiif i 6=jfij={qsjjsii^Cov(sii,sij)+qsiisjj^Cov(sjj,sij)}λ*=Pi6=j’V ar(sij)-(R)rfijPi6=j(sij-\'\'r√3.3单元正则化在稀疏性假设下,可以使用一些单元正则化方法。与[17]型o f估计量相比,只有特征值缩小,这里特征值和向量都被正则化。我们将讨论一些高维财务数据的统计问题,9讨论带状和锥形等常用方法,这些方法假定变量之间存在某种顺序,因此,估计量不是变量的不变项下变。因此,这对于依赖时间的数据很有用。3.3.1分带分带背后的思想是,变量的排序方式应确保协方差矩阵中离主诊断更远的元素不可忽略。

10
何人来此 在职认证  发表于 2022-6-10 09:37:22
An l公司-带状协方差矩阵定义为B(Sl)=[sijI(| i-j |≤l) ,其中S=[sij]是p×p样本协方差矩阵,l(≤ p) 是带宽,通过交叉验证确定。人们可能会问,哪种人口协方差矩阵可以很好地近似于带状样本协方差矩阵。直觉上,当一个人离开主对角线时,这样的矩阵应该有衰减的中心。[3] 结果表明,在以下几类矩阵上,人口协方差可以很好地一致逼近:{∑:maxjPi |σij | I(I- j≥ k)≤ C、 k级-α、 和0<≤ λmin(∑)<λmax(∑)≤ -1} 式中,C是常数,α捕捉条目的衰减率σijas i远离j。虽然p很大,但如果log(p)与n相比非常小,即log(p)n→ 0,则可以通过精确选择带长和近似误差依赖于对数(p)/n和α来很好地近似a∑。同样的结果也适用于精度矩阵。带状协方差估计程序不能保证正不确定性。3.3.2渐减渐减协方差矩阵ix是另一种可能的方法,它可以表示正不确定性。T(S)=SoT是一个锥形估计量,其中S是样本协方差矩阵,T是锥形矩阵,并且\'o’ 表示Hadamardproduct(元素乘积)。阿达玛乘积的性质表明,如果T是正定义的,则T(s)是正定义的。带状协方差矩阵是T=((1[| i)的特例-j|≤l) ),这不是正面定义。3.3.3阈值最广泛使用的元素级正则化方法是通过阈值运算r定义的。正则化估计量是Tλ(S)=((sijI(sij)>λ)),其中S=((sij))是样本协方差矩阵,λ>0是阈值参数。λ可通过交叉验证确定。虽然它比其他方法简单得多,比如惩罚套索,但它有一个问题。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-10 03:40