人大经济论坛 › 论坛 › 经济学人二区 › 外文文献专区 › 高维因子模型估计的随机矩阵方法

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: 能者818

591 19

[量化金融] 高维因子模型估计的随机矩阵方法 [推广有奖]

0关注
6粉丝

会员

学术权威

79%

还不是VIP/贵宾

威望: 10 级
论坛币: 10 个
通用积分: 34.5488
学术水平: 0 点
热心指数: 1 点
信用等级: 0 点
经验: 24952 点
帖子: 4198
精华: 0
在线时间: 0 小时
注册时间: 2022-2-24
最后登录: 2022-4-15

楼主

能者818

发表于 2022-5-27 14:51:49 |只看作者 |坛友微信交流群|正序 |AI写论文

相似文件

换一批

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

英文标题：
《Random matrix approach to estimation of high-dimensional factor models》
---
作者：
Joongyeub Yeo, George Papanicolaou
---
最新提交年份：
2017
---
英文摘要：
In dealing with high-dimensional data sets, factor models are often useful for dimension reduction. The estimation of factor models has been actively studied in various fields. In the first part of this paper, we present a new approach to estimate high-dimensional factor models, using the empirical spectral density of residuals. The spectrum of covariance matrices from financial data typically exhibits two characteristic aspects: a few spikes and bulk. The former represent factors that mainly drive the features and the latter arises from idiosyncratic noise. Motivated by these two aspects, we consider a minimum distance between two spectrums; one from a covariance structure model and the other from real residuals of financial data that are obtained by subtracting principal components. Our method simultaneously provides estimators of the number of factors and information about correlation structures in residuals. Using free random variable techniques, the proposed algorithm can be implemented and controlled effectively. Monte Carlo simulations confirm that our method is robust to noise or the presence of weak factors. Furthermore, the application to financial time-series shows that our estimators capture essential aspects of market dynamics.
---
中文摘要：
在处理高维数据集时，因子模型通常有助于降维。因子模型的估计在各个领域都得到了积极的研究。在本文的第一部分中，我们提出了一种利用残差的经验谱密度估计高维因子模型的新方法。金融数据协方差矩阵的频谱通常表现出两个特征方面：少量峰值和大量。前者代表主要驱动特征的因素，后者则来自于特殊噪声。出于这两个方面的考虑，我们考虑了两个光谱之间的最小距离；一个来自协方差结构模型，另一个来自通过减去主成分获得的金融数据的实际残差。我们的方法同时提供了因子数量的估计量和残差中相关结构的信息。利用自由随机变量技术，该算法可以有效地实现和控制。蒙特卡罗模拟证实，我们的方法对噪声或弱因素的存在具有鲁棒性。此外，对金融时间序列的应用表明，我们的估计量捕捉到了市场动态的基本方面。
---
分类信息：

一级分类：Quantitative Finance 数量金融学
二级分类：Statistical Finance 统计金融
分类描述：Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--
一级分类：Physics 物理学
二级分类：Data Analysis, Statistics and Probability 数据分析、统计与概率
分类描述：Methods, software and hardware for physics data analysis: data processing and storage; measurement methodology; statistical and mathematical aspects such as parametrization and uncertainties.
物理数据分析的方法、软硬件：数据处理与存储；测量方法；统计和数学方面，如参数化和不确定性。
--

---
PDF下载：
-->

Random_matrix_approach_to_estimation_of_high-dimensional_factor_models.pdf (811.63 KB)

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：模型估计 Econophysics Quantitative SIMULTANEOUS Applications

相关帖子

使用道具举报

20楼

mingdashike22

发表于 2022-5-27 14:53:02 |只看作者 |坛友微信交流群

ρ表示残差的相同自回归系数，β表示矩阵中J范围内的互相关。对于残差无相关性的第一种情况，如（ρ，β）=（0，0），估计量^b给出的数字介于0.03和0.05之间，接近真值0。当施加自相关时，当（ρ，β）=（0.5，0），^b也非常接近真值0.5。在此处添加互相关结构，如（ρ，β）=（0.5，0.5），会移动平均值并降低精度，但不显著。这是因为在我们的实验装置中，局部互相关对光谱的贡献与自相关的贡献相比微不足道。然而，当在真实剩余过程中仅强制进行交叉关联时，如（ρ，β）=（0，0.5），则^b的平均值与真实值0相差甚远，给出的值介于0.1和0.25之间。我们解释说，从光谱角度来看，这种偏离的^b对光谱的影响与互相关的贡献近似相等。

使用道具举报

19楼

何人来此

发表于 2022-5-27 14:52:59 |只看作者 |坛友微信交流群

由于在实践中，对于较大的系统，这种局部互相关可以更广泛，因此我们设定J与N成正比，即J=N/10。表1总结了蒙特卡罗分析中使用的模型参数。样本量N，T{50，100，200，300，500}因子数p{3，4，5}1/信噪比θ{0.1，0.25，0.5，0.75，1，1.5，2，3}×残差中的p相关性（ρ，β，J）{（0，0，0），（0.5，0，0），（0，0.5，N/10），（0.5，0.5，N/10）}表1蒙特卡罗实验中使用的参数配置。我们首先通过用真实值检查估计值来研究我们方法的性能。接下来，我们关注的是因素的数量。我们的方法估计的因子数与[4]、[30]和[1]的其他三种方法估计的因子数进行了比较。为此，我们从以下几个方面进行了研究：（1）样本大小变小或变大时的误差收敛速度，（2）不同残差相关结构对估计误差的影响，以及（3）不同噪声水平下的性能。最后，我们测试了弱因素存在时的检测能力。作为一种误差度量，均方根误差（RMSE）可在1000次重复中获得。在计算特征值和特征向量之前，对每个序列进行细分和标准化，以获得单位方差。5.2估计性能首先检查我们的方法在估计因子模型方面的性能。表2总结了^p和^b的平均值。我们可以首先观察到，我们估计值的平均值，^p和^b，与N和噪声1/SNR范围内的真实因子数量和真实自相关系数非常接近。一个例外是当样本量很小，噪声量很大时，我们的估计量开始低估因子的真实数量。真实的相关结构在测试中也会发生变化。

使用道具举报

18楼

mingdashike22

发表于 2022-5-27 14:52:56 |只看作者 |坛友微信交流群

根据数值结果，结果表明，块体的边缘在所需的数值精度范围内是可有效控制的。此外，我们还从蒙特卡罗模拟中发现，仅使用b的方法仍然可以准确估计因子的数量。第三，参数b是表示剩余收益平均回复率的总量。近年来，剩余空间的动力学受到了极大的关注。虽然它不能直接应用于任何实际用途，如交易，但使用此单一参数对真实市场的剩余子空间进行表征，可以了解市场动态。5蒙特卡罗分析5.1实验设置我们通过蒙特卡罗研究来评估我们估计方法的性能。我们首先使用以下模型生成合成数据：Xit=pXj=1LijFjt+√θUit；（19）（20）Uit=s1- ρ1+2Jβeit（21），其中（22）eit=ρei，t-1+维生素+i-1Xh=最大值（i-J、 1）βvht+最小（i+J，N）Xh=i+1βvht（23）vht，Lit，Fjt~ N（0，1）（24）该模型也用于其他文献[1，4，30]。该模型的基本原理如下。1、系数1- ρ1+2Jβ使Uit的方差始终为1。这允许模型仅通过θ控制残差的方差（或噪声）水平。θ控制信噪比（SNR），其中SNR=var（F actors）var（残差）=pθ。我们将使用1/SNR代替θ来表示噪声级。例如，如果1/SNR=0.25，这意味着θ=0.25×p.3。ρ控制残差自相关的衰减速率。（|ρ|<1）4。对于|β|震级，残差的互相关由β控制≤ 1和J表示有效范围。

使用道具举报

17楼

mingdashike22

发表于 2022-5-27 14:52:53 |只看作者 |坛友微信交流群

虽然乍一看它似乎太简单了，但我们将证明它能够有效地提高对噪声水平的鲁棒性和检测薄弱因素的能力。4.5.3ρ模型（b）的计算简化的问题使我们能够更容易地计算建模的光谱密度ρ模型（b）。这可以通过使用[9]中提出的自由随机变量技术来实现。我们在此简要介绍了主要的实现。1、平均光谱密度可通过使用索霍茨基公式从格林函数G（z）得出：ρ模型（λ）=-πlim→0+ImGc（λ+i). （16） 2。格林函数G（z）可由矩母函数M（z）得到。M（z）=zG（z）- 1（17）3。通过求解M=M（z）（a）的多项式方程，可以找到M（z=√1.- 波段C=不适用）：acM+2ac- （1+b）z+acM+（18）（1）- b） z- 2ac（1+b）z+（c- 1） aM- 凌晨2点- a=0详见附录B。备注：虽然这个简化模型来自我们对协方差矩阵的假设，但它实际上有很多好处。首先，它使密度的计算几乎是解析式的。如果我们使用自由随机变量技术，获得谱密度ρ模型（b）的数值过程很简单。其次，这两个参数反映了我们所考虑的协方差矩阵典型谱的基本特征。如前所示，光谱大致分解为两部分：尖峰和块状。参数p控制残差中尖峰的数量。当我们从数据中减去p因子时，对应于p最大特征空间的p尖峰将从原始数据的频谱中移除。同时，参数b控制较小特征值的区域。虽然它不能代表所有可能的块状物形状，但它可以有效地模拟残余物的块状谱的变化。

使用道具举报

16楼

kedemingshi

发表于 2022-5-27 14:52:49 |只看作者 |坛友微信交流群

在b=0.35、0.5、0.65的情况下，我们发现当b=0.5（黑线）时，ρCY（红线）的光谱最接近ρcz，并且光谱距离（本例中的Kullback-Leibler距离）在同一点最小。4.5.2因子模型估计与简化模型现在，我们为ANand BT提出了一个改进模型，该模型的参数集更为简单。假设如下：0 1 2 3 4 500.20.40.60.811.2IgenvaluesDensity bi~U[0,1]bm=0.35bm=0.50bm=0.650 0.2 0.4 0.6 0.8 100.10.20.30.40.5bmkulback-Leibler距离图4权利要求1的数值演示。（左）：b的非均匀过程Y的特征值分布~ U【0，1】（红色），以及来自齐次自回归过程Z的‘b=0.35、0.50和0.65，对于N=300，T=600。（右）：ρCYandρCZ之间的Kullback-Leibler距离。请注意，距离最小，接近“b=0.50”时几乎为零，这实际上是BI的理论平均值。1。有效地从p主成分中去除了互相关，其中p是因子的真实数量，剩余U（p）具有完全可忽略的互相关：≈英寸×N.2。U的自相关随时间滞后呈指数递减（以相同的速率递减）：英国电信ij=b | i-j |，b |<1。（这相当于将剩余收益建模为AR（1）过程：Uit=bUi，t-1+ξit，其中ξit~ N（0，1- b）因此，Utisone的方差。）根据上述假设和前一节中的谱平均场模型，我们仅使用两个控制变量（因子数量p和总体平均回归率b）来近似原始估计。简而言之，使用简单参数化的估计表示为{p，^b}=arg minp，bDρ实（p），ρ模型（b）. （15）对于以下章节中的数值实验，我们使用此简化模型。

使用道具举报

15楼

kedemingshi

发表于 2022-5-27 14:52:46 |只看作者 |坛友微信交流群

为此，我们从剩余过程谱的平均场模型出发，提出了一种ANand BT的简化模型。4.5.1平均场模型基于Specturma平均场模型通过研究一个更简单的模型来研究大型复杂随机模型的行为。例如，在量子自旋系统的磁性中，平均场理论认为自旋在所有其他自旋产生的平均场中移动。通常在高维系统中，平均场理论可以很好地描述相变。在因子模型中，每个特质回报都有自己的驱动力，即一个领域。与传统的平均场理论类似，我们没有单独考虑每个残差，而是考虑单个相关结构，使我们能够近似复制原始异源相关结构的光谱密度。权利要求1（频谱平均场模型）。假设我们有两个N×T矩阵，Y和Z，这样一来，Y=biYi，T-1+ξit（12）Zit=bZi，t-1+ηit（13），其中| bi |<1，b=NPbi，ξit~ N（0，σi）和ηit~ N（0，σ）。设σi=1- biandσ=1- b、所以var（Y）=var（Z）=1。考虑两种经验光谱分布，ρCYandρCZ，其中cy=TY yt，CZ=TZZT。然后ρCYandρcz之间的距离变得非常小，因为N，T很大。DρCY，ρCZ≈ 0（14）对于该索赔，我们提供了一个数字说明。我们首先从0到1之间的均匀分布中抽取bi的随机数，并取几个不同的“b值”，b=0.35、0.5、0.65。Y和Z的合成数据集由上述等式中的自回归过程生成。在图4中，我们给出了特征值分布CYand CZ。

使用道具举报

14楼

大多数88

发表于 2022-5-27 14:52:41 |只看作者 |坛友微信交流群

我们解决了一个最小化问题，该问题搜索剩余过程协方差矩阵的有效参数集和因子的数量，从而使模型的频谱与实际数据的频谱之间的距离最小。{p，θ}=arg minp，θDρ实（p），ρ模型（θ）（11）其中ρreal（p）是C（p）real的特征值分布，ρmodel（θ）是以参数集θ=（θAN，θBT）为特征的一般协方差矩阵的极限特征值密度，D是我们选择的谱距离度量或损失函数。该问题同时估计了残差相关的因子数和参数。附录1讨论了估计量的一致性。该模型被称为Kronecker模型，广泛应用于通信领域【23】，最近引入了非计量经济学【30】。4.5残差协方差结构的简化模型如前所述，当使用主成分估计器作为因子时，ρreal（p）的计算非常简单。对于一般θ=（θAN，θBT），困难在于计算极限分布ρ模型（θ）。虽然引理1保证了经验谱分布收敛到一个合适的极限，并且引理得到的Stieltjes变换提供了关于极限分布的有用信息，但它的实际计算相当复杂，这使得实现困难。然而，最近的一项研究[9]提供了使用自由随机变量技术直接推导光谱密度的方法。当时间序列遵循向量自回归过程时，它们特别呈现出解析形式。在本文中，我们使用这种技术来计算谱ρ模型（·）。

使用道具举报

13楼

mingdashike22

发表于 2022-5-27 14:52:38 |只看作者 |坛友微信交流群

条目和ANand Bt分别表示交叉和自协方差结构，参数为θA和θB。然后给出U的经验方差矩阵asCN=NUUT=TA1/2N英国电信TA1/2N（9）注意，如果ANand Bt的经验光谱分布收敛，则表明当N和T较大时，Cn的光谱分布收敛到一个合适的极限（见附录中的引理1）4.3光谱距离度量由于经验光谱包含尖峰，并非所有距离度量在该问题中都有用。我们的方法需要一个指标，该指标必须对尖峰的存在敏感，并能正确反映分组特征值的分布。对于我们考虑的协方差矩阵，我们测试了几个距离度量。我们使用Jensen-Shannon散度，这是Kullback-Leibler散度的对称化。DJS（P kQ）=DKL（P kM）+DKL（QkM）（10），其中P和Q是概率密度，M=（P+Q），DKL（P kQ）是由DKL（P kQ）=PiPilogPiQi定义的Kullback-Leiblerdivergence。请注意，如果一个密度在某一点上有尖峰，而另一个密度在该点上几乎为零，那么Kullback-Leibler距离会变大。此外，使用该度量还考虑了块体区域中的信息差异。附录C.4.4因子模型估计中进一步讨论了离散网格下Kullback-Leibler散度的数值计算。现在，我们准备在这里说明估计问题。

使用道具举报

12楼

nandehutu2022

发表于 2022-5-27 14:52:35 |只看作者 |坛友微信交流群

一旦得到这两个分布，我们就最小化这两个分布之间的距离，以便我们可以估计所需的参数。我们的工作是首次应用该模型估计真实数据剩余收益的协方差结构。图3说明了估算程序。图3因子模型估算程序示意图。基于谱的最小距离，估计残差协方差结构的因子数（p）和参数（θ）。4.1ρreal（p）：使用主成分第一步是通过从实际数据中提取p个最大主成分来生成经验残差。这里我们使用主成分作为因子。在大维度数据中，主成分确定的投资组合大致模拟了旋转前的所有真实因素【2、17、39】。如果实际存在不止一个因素，则方程式5中的p级残余^U（p）始终可以计算p≥ 1.p级残差的协方差矩阵由式6给出：C（p）real=T^U（p）^U（p）T。（7）下标real表示它是根据实际市场数据构建的。我们的目标是通过在算法中控制p，从C（p）实数的光谱分布中找出因子的数量。这之后的想法很简单。我们不断减去因子，直到使用真实数据从残差中得到的体谱与建模残差的体谱接近。4.2ρ模型（θ）：建模剩余过程的协方差下一步是建模剩余过程的协方差结构。对于互协方差矩阵和自协方差矩阵BT，让残差具有一定的协方差结构，其特征是参数θana和θBT。然后我们可以假设剩余项的结构为BT1/2（8）其中是具有i.i.d的N×T不相关随机矩阵。

使用道具举报

返回列表

12 下一页

发帖

本版微信群

加JingGuanBbs
拉您进交流群

手机版 |

意见反馈 |

帮助 |

新手入门 |

用户手册 |

友情链接 |

如有投资本站、合作意向或投放广告，请联系：13661292478（刘老师）

联系客服

邮箱：service@pinggu.org 投诉或不良信息处理：（010-68466864）

京ICP备16021002-2号京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明

[量化金融] 高维因子模型估计的随机矩阵方法 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[量化金融] 高维因子模型估计的随机矩阵方法 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群