楼主: 能者818
588 19

[量化金融] 高维因子模型估计的随机矩阵方法 [推广有奖]

  • 0关注
  • 6粉丝

会员

学术权威

79%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
34.4288
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
24952 点
帖子
4198
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Random matrix approach to estimation of high-dimensional factor models》
---
作者:
Joongyeub Yeo, George Papanicolaou
---
最新提交年份:
2017
---
英文摘要:
  In dealing with high-dimensional data sets, factor models are often useful for dimension reduction. The estimation of factor models has been actively studied in various fields. In the first part of this paper, we present a new approach to estimate high-dimensional factor models, using the empirical spectral density of residuals. The spectrum of covariance matrices from financial data typically exhibits two characteristic aspects: a few spikes and bulk. The former represent factors that mainly drive the features and the latter arises from idiosyncratic noise. Motivated by these two aspects, we consider a minimum distance between two spectrums; one from a covariance structure model and the other from real residuals of financial data that are obtained by subtracting principal components. Our method simultaneously provides estimators of the number of factors and information about correlation structures in residuals. Using free random variable techniques, the proposed algorithm can be implemented and controlled effectively. Monte Carlo simulations confirm that our method is robust to noise or the presence of weak factors. Furthermore, the application to financial time-series shows that our estimators capture essential aspects of market dynamics.
---
中文摘要:
在处理高维数据集时,因子模型通常有助于降维。因子模型的估计在各个领域都得到了积极的研究。在本文的第一部分中,我们提出了一种利用残差的经验谱密度估计高维因子模型的新方法。金融数据协方差矩阵的频谱通常表现出两个特征方面:少量峰值和大量。前者代表主要驱动特征的因素,后者则来自于特殊噪声。出于这两个方面的考虑,我们考虑了两个光谱之间的最小距离;一个来自协方差结构模型,另一个来自通过减去主成分获得的金融数据的实际残差。我们的方法同时提供了因子数量的估计量和残差中相关结构的信息。利用自由随机变量技术,该算法可以有效地实现和控制。蒙特卡罗模拟证实,我们的方法对噪声或弱因素的存在具有鲁棒性。此外,对金融时间序列的应用表明,我们的估计量捕捉到了市场动态的基本方面。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--
一级分类:Physics        物理学
二级分类:Data Analysis, Statistics and Probability        数据分析、统计与概率
分类描述:Methods, software and hardware for physics data analysis: data processing and storage; measurement methodology; statistical and mathematical aspects such as parametrization and uncertainties.
物理数据分析的方法、软硬件:数据处理与存储;测量方法;统计和数学方面,如参数化和不确定性。
--

---
PDF下载:
--> Random_matrix_approach_to_estimation_of_high-dimensional_factor_models.pdf (811.63 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:模型估计 Econophysics Quantitative SIMULTANEOUS Applications

沙发
可人4 在职认证  发表于 2022-5-27 14:51:55 |只看作者 |坛友微信交流群
高维因子模型估计的随机矩阵方法*1和George Papanicolaou+2斯坦福大学计算与数学工程研究所,斯坦福大学数学系,斯坦福大学2017年11月27日摘要在处理高维数据集时,因子模型通常有助于降维。因子模型的估计在各个领域都得到了积极的研究。在本文的第一部分中,我们提出了一种利用残差的经验谱密度估计高维因子模型的新方法。来自财务数据的协方差矩阵谱通常表现为两个特征方面:少量峰值和大量。前者代表主要驱动特征的因素,后者则来自于特殊噪声。出于这两个方面的考虑,我们考虑了两个光谱之间的最小距离;一个来自协方差结构模型,另一个来自通过减去主成分获得的财务数据的实际残差。我们的方法同时提供了因子数量的估计量和残差中相关结构的信息。利用自由随机变量技术,可以有效地实现和控制所提出的算法。蒙特卡罗模拟证实,我们的方法是针对噪声或弱因素的存在。此外,对金融时间序列的应用表明,我们的估值器捕捉到了市场动态的基本方面。关键词:随机矩阵理论、因子模型、主成分分析、自由随机变量、Kullback-Leibler分歧1简介“大数据”的可访问性在经济和金融领域也越来越高。在处理此类高维数据集时,经常使用因子模型,因为它们可以降维并有效地提取相关信息。

使用道具

藤椅
nandehutu2022 在职认证  发表于 2022-5-27 14:51:59 |只看作者 |坛友微信交流群
高维因子模型的估计在统计学和计量经济学中得到了广泛的研究[1、3、4、10、11、12、21、22、30、38]。本文提供了一种利用残差的奇异值分布估计高维因子模型的新方法。根据最小距离法,我们估计*uriyeobi@gmail.com,斯坦福大学计算与数学工程研究所,斯坦福,加利福尼亚州94305,美国+papanico@math.stanford.edu,斯坦福大学数学系,斯坦福,加利福尼亚州94305,USAof因子和残差的相关结构。通过Montecarlo仿真验证了该方法的有效性,在我们考虑的大多数情况下,该方法的性能优于其他已知方法。此外,财务数据的结果表明,我们的估计员有效地捕捉到了结构性市场变化。考虑如下因素模型。对于i=1、····、N和t=1、····、t,Rit=pXj=1LijFjt+Uit(1),其中riti是时间t时第i个单位的数据(如资产回报),Ftjis是时间t时的第j个系数,li是第j个系数对第i个横截面单位的负荷。UIT是Rit的特质成分或剩余。通常,只有R是可见的。因此,以下问题是可能的:1。如何估计F(因子)和L(因子载荷)?2、如何估计p(因子数)?3、U=R- LF。U(残差)的性质是什么?它们是噪音还是仍然包含信息?对于第一个问题,给定p,主成分可用于估计F和L。对于第二个和第三个问题,一种方法是通过查看R的协方差矩阵的奇异值来确定p,并根据给定的方差解释阈值取其中一些值。

使用道具

板凳
可人4 在职认证  发表于 2022-5-27 14:52:02 |只看作者 |坛友微信交流群
那么我们通常假设U是纯噪声。然而,在本文中,我们主要关注残差U及其动态性和相关性,以同时估计U中的协方差结构和因子p的数量。我们的方法基于对残差协方差矩阵的经验谱分布的研究。本文的第一个贡献是,我们将因子模型估计问题与残差协方差矩阵的极限经验特征值分布联系起来。因此,该方法的主要重点是残差U。我们假设存在交叉和自相关结构,而不是要求特质成分Uit彼此不相关,因此U表示为U=A1/2NB1/2T,其中 是一个具有i.i.d.高斯项的N×T(T=T(N))矩阵,ANand Bt是一个N×N和T×T对称非负有限元,分别表示互协方差和自协方差。那么U的经验协方差矩阵可以写成CN=TUUT=TA1/2N英国电信TA1/2N。在本文中,我们限制了ANand BT的矩阵结构,因此它们完全由简单的参数集定义,即θANandθBT,这些参数将随着因子的数量进行估计。例如,一个简单的例子是,每个残差与其他残差具有相同的互相关β,并且每个残差是具有参数τ的指数衰减时间自相关。然后两个参数θAN=β和θBT=τ,完全确定AN和BT,因为=(AN)ii=1,(AN)ij,i6=j=β,i,j=1,···,N和英国电信=(BT)st=exp(-|s-t |/τ),s,t=1,····,t.现在,我们的估计方法的目标是匹配由市场数据构建的残差经验协方差矩阵的特征值分布。后者可以通过要删除的主成分的数量来控制。

使用道具

报纸
大多数88 在职认证  发表于 2022-5-27 14:52:05 |只看作者 |坛友微信交流群
前者依赖于ANand BT的建模,但我们假设一个简洁的矩阵结构,仅由一个小参数集(θAN,θBT)决定。这不是最通用的模型,因为互协方差和自协方差的贡献是解耦的:cov(Uit,Ujs)=ANijBTts。我们假设每个时间序列Uit(t=1,···,t)是归一化的,并且具有单位方差。我们搜索因子数(p)和参数集(θAN,θBT),以使模型和实际数据之间的光谱距离最小化。这种基于频谱的方法由真实数据频谱中的两个典型特征方面驱动:少量峰值和大量。前者代表主要驱动市场特征的因素,后者则来自于特质噪音。这也是由[43]的结果在理论上推动的,该结果分析了在某些假设下,CNT的经验特征值分布收敛到合适的极限分布。因子模型估计问题说明如下。{p,θ}=arg minp,θDρ实(p),ρ模型(θ)(2) 其中ρreal(p)是通过从原始数据中去除p个主成分构建的残差协方差矩阵的经验特征值密度,ρmodel(θ)是以参数集θ=(θan,θBT)为特征的一般协方差矩阵的极限特征值密度,d是我们选择的谱距离度量或损失函数。该最小化问题的解给出了残差相关结构的因子数和参数。至于估计因素的数量,在以前的文献中提出了几种方法【1、4、21、22、30】。

使用道具

地板
nandehutu2022 在职认证  发表于 2022-5-27 14:52:14 |只看作者 |坛友微信交流群
与其他估计器的主要区别在于,我们的方法找到了整个光谱分布的最佳拟合,这使我们能够同时考虑峰值和大部分分布。ρ模型(θ)的计算存在困难,因为在一般情况下使用Tieltjes变换中的极限分布非常复杂。然而,[9]最近的一项工作使用自由随机变量技术提供了极限光谱密度的解析推导。本文利用这些结果计算ρ模型(·)。此外,我们提出了一个简单的估计问题,该问题考虑了ANA和BT的简约矩阵结构。特别是,假设互相关被因子有效去除,我们假设归一化残差之间的互相关可以忽略不计:一个≈ IN×N(或上例中的β=0)。但我们仍然假设它们是连续相关的,与时滞相关的指数衰减:(BT)ij=b | i-j |。然后将ρ模型(θAN,θBT)替换为ρ模型(b),最小化问题只有两个标量变量p和b。这种简约模型有两种意义。首先,它有利于可计算性,因为我们采用了自由随机变量技术。其次,参数b表示残差均值回归的整体速率。残差的均值回归特性在当前金融市场中越来越受到关注,尤其是在统计套利策略中[42]。我们工作的第二个主要贡献是,通过使用已知模型生成的合成数据进行测试,验证了所提出的方法。用合成数据进行的蒙特卡罗模拟表明,估计量的有限样本性能良好。对于N和T的各种选择,因子数量和自回归参数都得到了准确估计。

使用道具

7
nandehutu2022 在职认证  发表于 2022-5-27 14:52:17 |只看作者 |坛友微信交流群
我们将我们的方法估计的因子数与文献中其他方法估计的因子数进行了比较,结果表明我们的方法对噪声具有鲁棒性,并且在识别弱因子方面表现良好。第三个贡献是,我们发现,利用真实的市场时间序列数据,我们对简化问题的估计成功地捕捉到了市场动态。我们提出的估计问题是静态的,因此为了观察参数的时变行为,我们使用移动窗口重复估计过程。对于市场数据,我们使用2000-2015年期间标准普尔500指数股票的日收益率。我们计算估计量的时间变化。结果表明,估值器反映了市场的制度变迁信息。特别是,我们发现,在应力期间,ρreal(p)可以通过数据轻松获得。详情见第4.1节周期,因子数量正在减少,而相应因子解释的方差增加,这表明市场凝结。此外,由估计的自回归系数b表示的残差的全局平均回归时间非常接近于波动率指数。我们还发现,在危机期间,残差更具趋势性,平均值回复速度较慢。论文的其余部分包括以下内容。在第二节中,我们回顾了相关文献。在第3节中,我们考虑一个激励示例。第4节描述了我们对因子模型的估计方法,并描述了使用的程序。第5节包含蒙特卡罗分析以及与其他方法的比较。第6节展示了具有真实数据的应用程序。我们在第7.2节相关文献中得出结论,我们在高维环境中的方法基本上是基于随机矩阵理论。

使用道具

8
能者818 在职认证  发表于 2022-5-27 14:52:21 |只看作者 |坛友微信交流群
Randommatrix理论最初是为了研究复杂量子系统中的相互作用而发展起来的【41】,可以用来识别偏离普遍预测的非随机性质。【24】和【33】是将随机矩阵理论应用于金融相关性的前两项研究,物理学界也有无数论文紧随其后【13、29、34、35、37】。[6]和[7]提供了关于随机矩阵理论财务应用的综合观点。他们从股票收益率分析了经验互相关矩阵的特征值分布。他们的目标是偏离理论预期的特征值,即马尔琴科-Pastur定律[26],提供真实的市场信息,如市场模式或工业部门。然后通过计算这些偏离特征值来确定因子的数目。然而,在散装区域,“无信息”或“纯噪声”假设过于严格,在实践中证明是无效的。如第3节中的示例所示,协方差矩阵的经验谱密度从实际剩余收益到马尔琴科牧场分布的拟合存在问题。这意味着真实数据的残差不一定是纯噪声,需要考虑更一般的相关结构来评估经验密度。【43】的惊人工作为我们的估计方法提供了核心理论基础。作者考虑了形式为CN=TA1/2N的一般协方差矩阵CN英国电信TA1/2N,其中An和Bt分别是大小为N×N和T×T的非负有限矩阵,以及 具有i.i.d.条目的isan N×T高斯随机矩阵。设c=不适用。[43]表明,在某些假设下,Cn的经验特征值分布弱收敛于非随机分布Fc,a,B。

使用道具

9
大多数88 在职认证  发表于 2022-5-27 14:52:25 |只看作者 |坛友微信交流群
在本文中,我们引入了一个具有简单参数化的近似模型,并使用文献[9]中介绍的技术直接推导出特征值的概率分布。然后,我们将模型的频谱与实际数据联系起来。同时,金融中的因子模型框架由[36]提出,提出了随机定价理论。由于宽松的假设允许特质成分中存在弱相关性,因此[10]引入了近似因子模型。动态因素模型[40]也受到了关注。许多物理学研究人员还试图利用因子分析揭示金融市场数据中的相关结构[5、20、25、27、28]。高维因子模型中因子数量的确定是理论和实践中的关键问题之一。文献[4]的原始工作使用信息标准来确定数字因子。【22】是第一个使用特质结构思想的人。作者指出,特质成分的相关假设意味着本文所考虑的特征值分布的特质特征值的尖锐渐近上界的闭合形式表达式由许多有界的小特征值(散装)和几个大特征值(尖峰)组成。样本协方差矩阵。因此,他声称,计算边界以上的特征值可以估计因子的数量。【30】提供了一个使用两个相邻智能值差异的标准。基于特征值比的方法也在[1]中得到发展,最近在[32]中也得到发展,用于高频数据。[21]还提出了一种使用光谱估计因子数量的方法。

使用道具

10
何人来此 在职认证  发表于 2022-5-27 14:52:28 |只看作者 |坛友微信交流群
与[21]和我们的不同之处在于,前者只考虑前几分钟,而我们的方法使用整个概率密度,并通过使用适当的度量考虑了峰值和协方差矩阵的体积的特征方面。因此,我们的方法不需要决定需要花费多少时刻,并且在使用高阶矩时不存在不稳定性。此外,我们的研究侧重于全球平均回归率,并用实际数据研究其动力学。3示例:MP定律与真实数据的问题在本节中,我们说明了马琴科·帕斯托尔(MP)[26]定律在多大程度上可以解释从真实市场数据和合成数据中去除因素后的残差谱。至于实际数据,我们获得了2012-2015年标准普尔500指数中400只股票的日收益率(N=400,T=1000):Rrealit=Sit- Si,t-1Si,t-1.(3)其中Sitis是时间t时股票i的价格。第二,相同维度(N=400,t=1000)的合成数据由以下模型生成synit=pXj=1LijFjt+Uit(4),其中Fjt~ N(0,0.1),Lij,Uit~ N(0,1)是独立的,因子p的真实数目设置为3。也就是说,合成数据的相关结构是已知的,而实际数据的情况并非如此。接下来,对于每个Rreland Rsyn,我们通过去除因子,使用主成分:^U(p)=R构建p级残差-^L(p)^F(p)(5),其中^L(p)^F(p)是p主成分的估计公因子。我们感兴趣的是残差协方差矩阵的特征值分布^U(p):^C(p)=T^U(p)^U(p)T(6)。残差的特征值分布如图1所示。从图中可以看出,经验谱由大量和少量尖峰组成。对于原始数据的频谱(无因子移除),有三个峰值,对应于我们生成的三个因子。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-9 13:32