楼主: nandehutu2022
1395 43

[量化金融] 因子的随机选择在一个特定的时间内保持了相关结构 [推广有奖]

11
kedemingshi 在职认证  发表于 2022-5-11 05:53:54
高维子空间的维数与对数(N)/ε成正比,其中N是时间序列的数量,ε是期望的精度(Dasgupta和Gupta,2003)。随机投影Q:Rd×N→ Rk×Nof矩阵D∈ Rd×是由Q(D)=BD定义的映射,其中k,D,N∈ N.这里矩阵B是随机变量值k×d矩阵的实现B(ω)。各种各样的概率分布可用于构造投影矩阵B(第3.3节对此进行了详细介绍)。最明显的选择是假设matr ix B取自具有独立条目的矩阵变量正态分布,即来自Nk×d(0,1k×1d)(Gupta和Na gar,1999)。那么每个元素都是N(0,1)-分布的,并且独立于其他元素。2.4随机因素模型2。4.1定义和属性我们定义了数据集X的随机因素模型(RFM)∈ Rd×Nvia a项目P:Rd×N→Rd×N,px=aBTBX,(3)式中B∈ Nk×d(0,1k×1d)是一个k×d维随机变量,其元素是独立的且非正态分布的,a>0是一个归一化常数。通过设置L=aa′XTBT,F=a′BT,映射(3)可以被解释为线性因子模型,(4)其中a′>0是与因子标准化相关的常数,如第2.4.3节所述。然后∈ Rd×kbe作为k维因子时间序列的矩阵。值得强调的是,从这一点开始,我们将不会区分随机变量及其实现,并默认可以从上下文中推断出区别。严格来说,矩阵P不是投影矩阵,因为它通常不满足等式P=P。然而,由于其范围是一个低维子空间,我们也使用术语“投影”来描述P,类似于第2.3节中术语“随机投影”的定义。矩阵F由随机时间序列组成,这些时间序列决不会影响数据。

12
何人来此 在职认证  发表于 2022-5-11 05:53:59
L∈ RN×kis是N个时间序列的k因子载荷矩阵。投影P可以被分解为asP X=F LT.(5)定义*= 十、- Px产生一个近似的因式分解X=F LT+*(6) 对于数据矩阵X,我们将分析方程(6),尤其是误差项*, 在下面的进一步讨论中。等式(6)表明,数据矩阵X可以近似分解为两个分量的乘积。另一方面,让我们提一下,我们同样可以考虑在股票方向上,而不是在上述时间序列方向上进行ra ndom项目。这可以通过使用矩阵Q=aRTR实现,其中a>0和R∈ Rk×Nis是一个随机矩阵,然后将xq视为投影矩阵。这自然会导致使用loa-dingmatrixaa′Rta和因子矩阵a′XRT进行因子模型解释。与之前的术语类似,这个模型可以称为随机加载模型。后来证明的随机投影P的性质,然后立即转移到投影Q,只需在所有结果中用“N”替换“d”。然而,从时间序列的角度来看,两种投影方法Px和Xqc的表现可能不同。例如,如果在固定时间内不同股权之间的关联性比在两个不同时间相同股权之间的关联性更大,那么人们会期望在投影XQ中的k值比投影px中的k值更大,以达到近似的相同精度水平。也可以同时应用随机投影和研究Pxq,而不是Px或XQ。只要随机矩阵B和稀有矩阵彼此独立选择,这种双面投影仍然具有与单面投影非常相似的性质。

13
nandehutu2022 在职认证  发表于 2022-5-11 05:54:02
由于这三个备选方案在技术层面上非常相似,我们只关注下面的选择Px。下一步,我们需要找到一个合适的常数a,以便在可能的情况下保留标准偏差、协方差和数据的预期值。在这种情况下,*应该接近于零。不同的选择产生的RFM性质略有不同,但如果我们将矩阵B建立在正态分布的基础上,我们无法同时满足所有这些要求。在这里,我们专注于在投影n中保留covaria nc e矩阵Cx,然后归一化常数a>0必须确保对Nk×d(0,1k×1d)的响应是保留的,即对于任何零均值向量x,y,e[CP x,py]=Cx,y(7)∈ Rd×1。值得强调的是,等式(7)中的期望值适用于随机因素模型,而不是时间序列x和y。附录中的定理A.1表明,这是可能的,但前提是我们选择A=1/pk(k+d)。让a从这一点开始有这个价值。然后,不管使用了多少因子,时间序列x和y之间的经验协方差都会保持不变。由于E[σpx]=E[cpx,px]=Cx,x=σx,我们对a的选择也保留了时间序列方差。这一结果表明,RFM有望满足方差的一致性要求,也就是说,它表明LIMD→∞E[σpx,d]=limd→∞σx,d=σx,pop,(8)例如,从附录中证明的结果可以看出,当a=1/k时,r表示(2)在E[P x]=x的意义上是平均准确的。然而,这种表示高估了样本变量σxofa时间序列x∈ Rd×1,因为[σpx]=(1+d/k)σx。因此,在典型的k<< D

14
kedemingshi 在职认证  发表于 2022-5-11 05:54:06
此外,尽管预测结果会平均产生正确的时间序列,但实际值主要由函数决定:(px)的标准偏差至少为σxpd/k,因此随机因素的一个给定样本不太可能是数据的有用表示,除非k至少与d可比。其中σx,pop是总体方差和σx,d维中的充分方差。Jensen不等式的应用意味着E[σpx]≤ σx,即波动性没有被高估。表示法(6)始终保持零均值向量x的平均值∈ Rd,也就是E[upx]=0。相比之下,时间序列x的第m次观测值xm有一个期望值e[(px)m]=pk/(k+d)xm和一个方差(xm+(d)-1) σx)/(d+k)。对于少数因素,映射到(px)mw平均会低估原始值xmsincepk/(k+d)<1。在大量因素的限制下,(px)映射到xm,sincel→∞E[(px)m]=limk→∞pk/(k+d)xm=xm,(9)和(px)miso的标准偏差pd/(d+k)因此当k→ ∞.因此,RFM复制任何向量x∈ Rn在大量因子的限制下逐分量,对于k>> d、 因此,当因子数增加时,方程(6)的接近零。RFM预计将再现时间序列x的均值、方差和协方差。在分量方面,随机因子模型预计将在有限的大量因子中收敛到观测分量值。2.4.2协方差保持方程(7)并不表示每个RFM始终保持协方差矩阵。然而,合理的假设是RFM近似保持协方差矩阵。

15
nandehutu2022 在职认证  发表于 2022-5-11 05:54:10
接下来,我们将分析RFM通常会在多大程度上保留共变矩阵ix。但首先,值得回顾的是,林登斯特劳斯定理(Johnson and Lindenstrauss,1984;Dasgupta and Gupta,2003;Matouˇsek,2008)给出了随机投影中距离保留精度的概率界限。约翰逊-林德斯特劳斯定理的许多版本已经被证明,然而,在我们已知的所有版本中,都假定随机变量的期望值为零。矩阵BTB∈ Rd×dis是一个奇异的Wishart矩阵(也称为反Wishart-ma-trix),它具有非零期望,d- k零eig值和k非零eig值。由于matrixBTB具有非零期望,因此约翰逊-林登斯特劳斯类型的定理是否成立并不先验。附录中证明的定理A.1填补了目前类型的反WishartMatrix的这一空白,并且它还包含了上述标度参数A rbitraryvalue期望值的详细推导。我们在推论A.2中收集了保持样本协方差矩阵期望值A=1/pk(k+d)的相应结果。精确控制协方差估计中的波动需要进行非平凡的组合计算,如附录所示。正如推论A.2所证明的,对于e very b>0和非r andom向量u,v∈ 当μu=0=μv时,我们有P[| CP u,P v- Cu,v|≥ b]≤kbσuσv.(10)不等式(10)给出了任意随机因子模型协方差保持精度的界。

16
nandehutu2022 在职认证  发表于 2022-5-11 05:54:14
这里的概率是关于随机因素模型的集合。因此,如果σu,σv≤ 1,向量u和v的协方差在

17
大多数88 在职认证  发表于 2022-5-11 05:54:18
正交化过程可以用来获得正交因子集,但正交化的计算代价很高。幸运的是,正交化不是RFM中的必要步骤。给定任意两个

18
能者818 在职认证  发表于 2022-5-11 05:54:21
N.2.5主成分分析PCA是一种广为人知的技术,它使用线性变换形成一个简单的数据树,包含原始数据集的特征(参见,例如,Johnson et al.(2 014))。在投资风险度量中,主成分分析通过一组市场变量的几个线性组合来解释这些变量的协方差结构。使用PCA的总体目标是减少协方差矩阵的维数,并找出主要的风险因素。然后,可以使用风险因素分析投资组合的投资风险来源,或预测投资组合的价值将如何发展。使用奇异值分解最直接地获得对主成分的投影(Golub和Van Loan,2012)。给定数据矩阵X∈ Rd×N,SVD将其分解为sX=PLDPTR,其中PL∈ 左奇异向量的Rd×dis矩阵,PR∈ 奇异向量的RN×Nis矩阵,和D∈ Rd×Nis奇异值的矩形对角矩阵。基于PCA的X因子表示由X=FLT给出,其中L=PR∈ RN×Ngives因子加载矩阵,F=PLD∈ Rd×Nde定义了N股票的因素。当减少原始数据集的维数时,选择特征值最大的前k个主成分代表原始数据集。这将产生使用子tof因子的数据矩阵近似值。矩阵X的k因子近似由F(k)(L(k))T给出,其中L(k)∈ RN×k包含第一个k系数荷载,F(k)∈ Rd×k包含PLD中第一个k因子的成分。可以证明,在平均误差意义上,PCA给出了矩阵X的最佳线性k因子近似(例如,Re ris和Brooks(2005);埃卡特和杨(19 36))。主成分对应于数据变化最大的方向。

19
何人来此 在职认证  发表于 2022-5-11 05:54:24
然而,不能保证在PCA中保留成对差异。PCA评估了投资组合中最重要的风险源(在因子矩阵中定义)的相对重要性。风险因素的相对重要性通过基因值的大小来体现。具有最高特征值的特征向量对应于最重要的风险因素。然后,Lo adings告诉我们,投资工具在多大程度上取决于这些因素。然而,应该指出的是,主成分分析旨在捕捉总变化,而非相关性(Johnson et al.,2014)。2.6因子模型的比较尽管出现,但RFM和主成分分析具有许多共同特征。在这两种模型中,数据都可以表示为F LT,其中L包含k个因子负荷,F定义了k个因子时间序列和d个观测值。在主成分分析中,最重要的特征向量是通过选择最大的特征值来找到的。对于随机向量,没有这样的排序。一个随机向量本质上和下一个随机m向量一样好。RFM具有几乎正交的因子,而PCA产生严格的正交因子。在找到因素后,RFM和PCA都会将数据投影到这些向量中。RFM和PCA最终以数据矩阵的表示形式结束的方式是非常不同的:在PCA中,数据是沿着主成分(因子)进行投影的,并且只保留所需的一组投影(载荷)。在RFM中,数据沿随机因子投影。主要区别在于选择因素的方式。PCA需要O(dN)+O(d)运算,而RFM需要O(kdN)运算,因为给定了因子时间序列。由于因子的数量通常明显小于数据的维数,因此RFM的计算效率远远高于PCA。我们的目标不是证明RFM优于PCA。

20
何人来此 在职认证  发表于 2022-5-11 05:54:28
我们宁愿使用PCA作为比较RFM的基准。值得记住的是,RFM中没有数据拟合,因此我们可以合理地证明,在数据实验中,PCA将在各个方面超过RFM。5 10 15 20 25 30 35 40 50-0.050.055 10 15 20 25 30 35 40 50-0.050.055 10 15 20 25 30 40 50时间[天]-0.050.05ABC图1:使用

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-20 18:24