楼主: mingdashike22
1575 25

[量化金融] 高维金融数据的若干统计问题 [推广有奖]

11
mingdashike22 在职认证  发表于 2022-6-10 09:37:26
估计量保持对称性,但不存在正不确定性。在高斯假设下,该估计量的一致性可以在一类{∑:σii上统一显示≤ C、 Ppj=1 |σij | q≤ s(p),i} 使用0≤ q≤ 1,10 Arnab Chakrabarti和Rituparna Senlog(p)/n=o(1),λ=Mqlog(p),对于足够大的M【3】。对于q=0,条件ppj=1 |σij | q≤ s(p)减少toPpj=1I(σij6=0)≤ s(p)。收敛速度取决于维数(p)、样本量(n)和s,以及∑中非零元素数的决定因子。精度矩阵也可以显示类似的结果。对于非高斯情况,我们需要一些动量条件才能获得一致性结果[3]。结果适用于较大类别的阈值算子。其中一种称为广义阈值算子,具有以下三个性质:1|sλ(x)|≤ |x |(收缩率)2。sλ(x)=0表示| x |≤ λ(阈值)3|sλ(x)- x |≤ λ(收缩量约束)除了在前面讨论的适当条件下保持一致外,如果每个变量的方差有界,则该算子也是“稀疏的”,即能够识别概率趋于1的总体协方差matr ix的真零条目。对于阈值和广义阈值算子,λ对于矩阵的所有条目都是固定的。可以开发一种自适应thres hold估计器[5],以便为不同的条目提供不同的参数,其中λij∝rlog(p)n^var(Yi- ui)(Yj- uj)3.4近似因子模型有时稀疏性假设太多,无法满足要求。对于这种情况,需要一大类协方差矩阵的估计方法。可以对可分解为低秩矩阵和稀疏矩阵之和的矩阵类进行简单扩展:∑=F FT+ψ,其中F为低秩,ψ为稀疏矩阵。

12
可人4 在职认证  发表于 2022-6-10 09:37:29
由于与ψ为对角线的因子模型相似,该模型被称为近似因子模型。为了估计∑,可以将S分解为类似的S=Pqi=1^λi^ei^eTi+R,其中第一部分包含第一个q主成分,第二部分是残差。AsR是稀疏的,我们现在可以使用阈值/自适应阈值算子来估计它。3.5正不确定性有时需要估计量的正不确定性,以便用于分类或协方差正则化回归。由于我们在高维财务数据方面存在一些统计问题,因此讨论的估计量不能保证正定义估计量。在下一节中,我们将描述实现这一目标的几种方法。一种可能的方法是将^∑的特征分解中的负特征值替换为零。但这种操作破坏了卵巢基质的晶石性质。另一种方法是必要的,它将增强稳定性,同时产生积极的有限输出。让我们用R矩阵M表示样本相关矩阵 0,如果是对称和正定义(M 0表示正半定义)和Mj,-j=M-j、 j=对称矩阵M的第j列,去掉其第j元素。M-j-j=移除第j列后形成的矩阵,第j行M和M+是对角线矩阵,对角线元素与M相同。定义M-= M- M+。然后,理想的正定义估值器为∑∧=(S+)λ(S+),其中S+=诊断,估计的相关矩阵为∑∧=argmin0kΘ- RkF/2- τlog |Θ|+λ|Θ-|λ和τ>0分别为调谐参数和固定的小值。优化函数中的对数行列式项具有正不确定性。对相关矩阵进行正则化可以使估计量更快地收敛到速度界和尺度不变性。

13
nandehutu2022 在职认证  发表于 2022-6-10 09:37:31
在适当和合理的条件下,该估计量是一致的。为了快速计算,开发了以下算法。o输入Q-一个具有正对角线λ,τ和初始值(∑,Ohm) 具有Ohm> 0.遵循步骤1-3对于j=1,2,p并重复tillconvergence。步骤1:σ(k+1)jj=qjj+τω(k)jjan,求解套索惩罚回归:∑(k+1)j,-j=argminβT(I+τσk+1jjOhm(k)-j-j) β- βTQ-j、 j+λkβkStep2:Ohm(k+1)j,-j=-Ohm(k)-j-j∑(k+1)j,-j/σ(k+1)jj。步骤3:计算ω(k+1)jj=(1- ∑(k+1)j,-jOhm(k+1)j,-j) /σ(k+1)jj。基于交替方向法(alternative directionmethod)[31],提出了一种替代估计器。如果我们想要一个正的半确定性矩阵,那么通常的目标函数以及lpenalty项应该使用正半确定性的附加约束进行优化:∑+=argmin∑0k∑- SkF/2+λ|∑|。对于正定义矩阵,我们可以替换约束∑ 带∑的0 如果非常小,大于0。引入新变量Θ,我们可以编写与12 Arnab Chakrabarti和Rituparna Sen(^Θ+,^∑+)=argminΘ,∑k∑相同的代码- SkF/2+λ|∑|:∑=Θ,Θ I.现在,对于某些给定的参数u:L(Θ,∑;∧)=k∑,将其增广拉格朗日函数最小化就足够了- SkF/2+λ|∑|- < Λ, Θ - ∑>+kΘ-∑kF/2u,其中∧是拉格朗日乘数。这可以通过以下算法实现(软阈值算子):o输入u,∑,λ。o迭代交替方向增广滞后朗吉安步:对于i-迭代:1。求解Θi+1=(∑i+u∧i)+2。求解∑i+1={S(u(S- ∧i)+Θi+1;uλ)}/(1 + u)3. 更新∧i+1=∧i- (Θi+1- ∑i+1)/uo重复上述循环,直至收敛。4精度矩阵估计器在某些情况下,代替协方差矩阵,精度矩阵(∑)-1) 需要计算。

14
何人来此 在职认证  发表于 2022-6-10 09:37:34
这种情况的一个例子是使用偏相关系数的金融网络模型,因为两个节点之间偏相关的样本估计为^ρij=-ωij/pωiiωjj,其中ωij=(ω∑)-1) ij。课程∑-1可以从∑计算,但反演涉及O(p)运算。对于高维数据,它的计算开销很大。另一方面,如果可以合理地假设精度矩阵的稀疏性,即精度矩阵的大多数有效元素为零,那么我们可以直接估计精度矩阵。虽然大多数金融机构对的相关性不会为零,但偏相关可以为零。因此,在许多实际情况下,这种稀疏性假设不会偏离现实。在这种情况下,从完全连通的图开始,我们可以通过删除最不重要的边,以向后逐步的方式进行。代替这种顺序测试过程,还可以采用一些多重测试策略,例如控制错误发现率。我们将在第5节对此进行详细讨论。在确定精度矩阵的哪个对角线项为零后(通过顺序或多重测试程序),可以通过解决凸优化问题来找到非零项的最大似然估计:最大化集中似然,前提是精度矩阵项的子集等于零[8][22]。或者,在高斯假设下,可以采用惩罚似然法。如果Y。。。,Yp公司~ Np(0,∑),似然函数是一些具有高维财务数据的统计问题13L(∑)=(2π)Np/2∑n/2exp(-nXi=1Y′i∑-1Yi)。惩罚似然l(∑)-1) =对数∑-1| - tr(S∑)-1) - λk∑-1k,当惩罚参数λ>0时,可使用d在稀疏解中求出[32]。

15
mingdashike22 在职认证  发表于 2022-6-10 09:37:37
获得该解的最快算法称为图形套索(graphical lasso)[12],des c ribedas如下所示:1。表示Θ=∑-1、从一个矩阵W开始,它可以用作∑的代理。Friedman等人建议的选择是W=S+λI.2。重复,直到j=1,2,…,c收敛,p: a.将矩阵W分为两部分,第j行和第j列,以及矩阵W-由其余元素组成。消除jjthelement后,第jth列的剩余部分(p-1维)表示为w,类似地,行表示为w。类似地,定义S、S、S、S矩阵。(对于j=p,分区将如下所示:W=Wwww和S=Ssss公司).b、 求解估计方程SWβ- s+λ。符号(β)=0,使用循环坐标下降算法获得^β。c、 更新w=w^β。3、在最后一个循环中,对于每个j,求出^Θ=-^β^Θ,带^Θ-1=w-w′^β。叠加(^Θ,^Θ)将得到第j列的Θ。图4显示了通过不同惩罚参数的图形套索定义的细胞信号数据的无向图[12]。图4通过图形lasso算法给出的惩罚参数lambda【12】14 Arnab Chakrabarti和Rituparna Sen5多假设检验问题和错误发现率的不同值的结果网络我们在许多实际情况下都会遇到大规模的假设检验问题。例如,在第4节中,我们讨论了要从完全连接的图中删除边,我们需要执行p(p-1) /2测试问题-Hij:ρij=0 vs Kij:ρij6=0。详细审查见【9】。假设我们有N个独立的假设H,H。。。,HNto测试。在这种情况下,重要的是不仅要控制单个假设检验的类型错误,还要控制总体(或组合)错误率。

16
kedemingshi 在职认证  发表于 2022-6-10 09:37:42
这是因为至少有一个真实假设的可行性会被拒绝,这一事实变得更加严重:1-(1 -α) N,其中α为显著性水平,通常取0.05或0.0 1。解决这个问题的传统方法是通过控制家庭错误率(FWER)-P(∪Ni=1H0iis被拒绝(如果是真的)。其中一个例子是Bonferroni校正。该程序的问题是过于保守,因此测试的威力很小。Benjamini和Hochberg[1]提出了一种更自由、更有效的高维hasbee n方法。在图5中,Ncases零假设中的N个假设检验为真,Ncases零假设中的N个假设检验为假。根据判定规则,在N种情况中,有R种情况下会拒绝无效假设。很明显,观察到了R,但也没有观察到。以下算法控制预期的错误发现比例:1。H,H,…,的检验统计量。。。,HNyield p值。。。。。,请注意。2、排列p值p(1)。。。。。,p(N)。假设H,H。。。,H根据PValues 4。找到最大的j,比如j*, 这样pj≤jNα5。拒绝顶部j*重要测试。可以表明,如果p值彼此独立,则基于算法的规则通过α控制预期的错误发现比例,更准确地说,是e(a/R)≤NNα≤ α.6高维回归在金融计量经济学中,经常会遇到多元回归分析问题。大量的预测器意味着需要估计大量的参数,这会降低自由度。因此,预测误差将增加。因此,在高维回归中,正则化是一种重要的工具。在本节中,我们将简要讨论具有q响应和p预测值的多元回归问题,这需要在回归系数矩阵中估计pq参数。

17
可人4 在职认证  发表于 2022-6-10 09:37:45
假设回归系数矩阵、响应矩阵和系数矩阵分别为X、Y和B。正如我们所知,一些高维财务数据的统计问题见图15。5错误发现率A/R【10】^BOLS=(X′X)-具有pq参数的1X′Y(在多元正态性下,这也是最大似然估计量)。Y的估计协方差矩阵(带q(q+1)/2个参数)为∑=n(Y- X^B)′(Y- X^B)。当pand q较大时,这两个es估计都表现出较差的统计特性。所以在这里,收缩和正则化^B将有助于获得更好的估计量。它可以通过降秩回归来实现,而降秩回归试图解决一个约束最小二乘问题:^Br=argminB:秩(B)=r≤最小(p,q)tr[(Y- XB)′(Y- XB)]该系数的最优解为^Br=(X′X)-1X′Y HH′,其中H=(H,…,hr),hk为标准化e-igenvector,对应于矩阵Y′X(X′X)的第k个最大特征值-1X′Y。ris的选择很重要,因为这是平衡预测偏差和方差的参数。或者,可以通过在优化问题中引入非负惩罚函数来获得正则化估计量:^B=argminB{tr[(Y- XB)′(Y- XB)]+λC(B)}当C是sc-alar函数且λ是非负q量时。C(B)最常见的选择是lpnorms。C(B)=Pj,k | bjk |导致套索估计,其中C(B)=Pj,kbjk等于岭回归。C(B)=αPj,k | bjk |+(1-α) /2Pj,Kbjk表示α∈ (0,1)和C(B)=Pj,k | bjk |γ表示γ∈ [1,2]分别称为弹性网回归和桥回归。C(B)=Ppi=1(bj1+…+bjq)0,5的分组套索对B行进行分组惩罚,这可能导致排除所有响应的一些预测因子。16 Arnab Chakrabarti和Rituparna Sen上述所有方法仅在不考虑∑的情况下对矩阵B进行正则化。

18
可人4 在职认证  发表于 2022-6-10 09:37:48
虽然有点复杂,但有时将B和∑都正则化是合适的-1、一种方法是在B和∑上添加单独的lassopenalty-1在负对数似然中:l(B,∑)=tr[n(Y-XB)∑-1(Y-XB)]-对数∑-1 |+λXj′6=j |ωj′j |+λXj,k | bj,k |其中λ和λ为常用调谐参数,B=((bjk))和∑-1=Ohm = ((ωj′,j))。这个优化问题不是c凸而是双凸。注意,解决上述优化问题Ohm 将B fixedat简化为优化问题:^Ohm(B) =argminOhm{tr(^∑)Ohm) - 日志|Ohm| + λXi6=j |ωij |},其中∑=n(Y-XB)′(Y-XB)。如果我们Ohm 在非负定义下Ohm这将导致^B(Ohm) = argminB{tr[n(Y- XB)Ohm(Y)- XB)′]+λXj,k | bj,k |}可以证明,使用[24]规定的以下算法可以解决原始问题:o固定λ和λ,初始化^B(0)=0和^Ohm(0)=^Ohm(^B(0))步骤1:计算^B(m+1)=^B(^Ohm(m) )通过solvingargminB{tr(n(Y- XB)Ohm(Y)- 通过坐标下降算法计算XB)+λXjXk | bjk |}步骤2:计算^Ohm(m+1)=^Ohm(^B(m+1))通过solvingargminOhm{tr(^∑)Ohm) - 日志|Ohm| + λXi6=j |ωij |}通过图形套索算法–步骤3:IfPi,j |^b(m+1)ij-^b(m)ij |<Pi,j^brijj,其中((^bRij))是b的Ridgeestimator。在许多高维研究中,一些具有高维财务数据177个主成分的统计问题,主成分负荷的估计不一致,且特征向量包含太多条目,无法解释。在这种情况下,最好用特征向量来正则化特征向量。因此,希望加载向量只包含几个非零条目。实现这一目标的最简单方法是通过一个过程调用SCoTLASS[16]。在这种方法中,将对PC加载施加套索惩罚。

19
能者818 在职认证  发表于 2022-6-10 09:37:51
因此,可以通过解决优化问题来获得第一个PC加载:最大化EVVx′Xv,以| | v为准||≤ 1,| | v||≤ C下一个PC可以通过施加额外的正交性约束来获得。请注意,这不是一个最小化问题,因此很难解决。然而,上述pr问题相当于以下问题:maximizeu,vu′Xv服从| | v||≤ c、 | | v||≤ 1,| | u||≤ 1通过将CauchySchwartz不等式用于u′Xv a,并注意到当u=X′v | | X′v | |时,可以很容易地验证两者之间的等效性。优化问题可通过以下算法解决【30】o将v初始化为lnorm 1。o迭代直至收敛a)u←Xv | | Xv | | b)v←s(X′u,)||s(X′u,)||, 其中S是软阈值算子,并且 = 如果计算的v满足| | v,则为0||≤ c否则 > 0对于| | v | |=c8分类支持,有n个独立的训练数据观测值(Xi,Yi),i=1(1)n,来自未知分布。这里,yi表示第i个观测值的类别,如果有K个类别,则可以取值{1,2,3,…,K}。Xi通常是一个维数为p的向量,是第i次观测的特征向量。给定一个新的观察值X,任务是确定该观察值所属的类。换句话说,我们必须确定从特征空间到{1,2,…,K}的函数。一种使用非常广泛的分类是基于距离的分类。如果与其他类别相比,观察值平均更接近类别k,则将观察值分配给类别k,即k=rgminidist(X,ui),其中uiis是类别i18 Arnab Chakrabarti和Rituparna Sen的特征空间中心。

20
nandehutu2022 在职认证  发表于 2022-6-10 09:37:54
例如,如果有两类,第一类的特征分布为X~ N(u,∑),第二类为X~ N(u,∑)然后,在假设这两类具有相等的先验概率的情况下,最广泛使用的距离度量称为马氏距离(X,uk)=p(X- uk)∑-1(X- uk),k=1,2。因此,当NP(X)时,选择1类- u)Σ-1(X- u) ≤p(X- u)Σ-1(X- u)这种技术称为Fisher判别分析。对于高维数据,Fisher判别分析不能很好地执行rm,因为它可以精确估计精度矩阵[2]。在下一节中,我们将讨论一些高维分类方法。8.1朴素贝叶斯分类支持我们利用特征x,通过一些预先确定的挖掘函数δ,即δ(x),对观测值进行分类∈ {1,2,…,K}。现在要判断准确度,我们需要考虑一些损失函数。最直观的损耗函数是零一损耗:L(δ(x),Y)=I(δ(x)6=Y),其中I(.)是指示器功能。δ的风险是预期损失-E(L(δ(x),Y))=1- P(Y=δ(x)| x=x)。风险最小化的最佳分类是g(x)=arg maxkP(Y=k | x=x)。如果π是k类观测的先验概率,则通过贝叶斯定理m P(Y=k | X=X)=π(k)P(X=X | Y=k)Pπ(k)P(X=X | Y=k)。So g(X)=arg maxkπ(k)P(X=X | Y=k)。这被称为Baye s c lassi fier。当X是高维时,实际上无法估计P(X | Y)。朴素贝叶斯分类器通过假设条件独立性来工作:P(X=X | Y=k)=QiP(Xi=Xi | Y=k),其中xjis是X的第j个分量。朴素贝叶斯分类器在实践中使用,即使条件独立假设无效。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-8 07:23