楼主: nandehutu2022
1396 43

[量化金融] 因子的随机选择在一个特定的时间内保持了相关结构 [推广有奖]

21
大多数88 在职认证  发表于 2022-5-11 05:54:31
复制的准确性随着因子数量的增加而提高:RFM和数据的一致性非常好,有500个因子。因子的数量不限于RFM中时间序列的数量,因为随机因子不必跨越时间序列可能具有值的整个空间。只有在大量因素的限制下,整个空间才被覆盖。PCA和RFM都能很好地再现数据(图1),然而,每次再现中都存在与数据的偏差。在ro-ot均方误差(RMSE)意义上,PCA比RFM能更好地再现时间序列(图2A)。整个数据集的RMSE在PCA中为0.79,在RFM中为1.37,有10个因子(图1A)。3.2波动性RFM几乎准确地再现了时间序列的波动性,即使有少量因子,而在PCA中,波动性估计随着因子的增加而显著改善(图2B)。由于每个时间序列的波动率分别标准化为1,波动率重现的准确性与图2B中的基础时间序列的波动率有关。因素0。20.40.60.81.21.4卡兰多姆系数系数-0.4-0.3-0.2-0.1卡兰多姆系数b图2:时间序列表示的准确性。(A) 使用RMSE测量的随机因子模型(灰色虚线曲线)和PCA(黑色实心曲线)进行时间序列再现时的误差。曲线显示为因子数量的函数。(B) 使用随机因子模型(灰色虚线曲线)和PCA(黑色实线曲线)作为因子数量的函数,再现时间序列波动性的误差。误差与由于标准化而导致的时间序列波动有关。在RFM中,波动率误差约为波动率的3.1%,包含10个因素。在主成分分析中,误差约为10个因素波动率的41.7%。

22
能者818 在职认证  发表于 2022-5-11 05:54:34
准确度会持续增加,直到计算出1000个因子,之后基本上不会在主成分分析中观察到误差。虽然RFM忠实地再现了股票时间序列的总体波动性,但它并没有很好地捕捉波动性的时间依赖性(数据未显示)。3.3相关系数图。3显示了在所有分析的成对样本中重现相关系数的准确性。在RFM中,中值误差只需几个因素即可迅速收敛到零。当因子数量增加时,err或err的第25和第75百分位趋于零。这三条曲线一起形成一个漏斗(图3A),迅速向零收敛。这表明,相关系数报告结果的典型准确性随着固定因子的增加而迅速提高。尽管如此,对于k=d,即使有“完整”的因素集,一些噪声仍然存在。在主成分分析中,只有约1000个因素的中值误差接近零,这在很大程度上是主成分分析序列严重低估了时间序列的波动性。在主成分分析中,第25和第75百分位集中在远离零的中位数附近。图3B显示了相关系数的绝对误差与因子数量的函数关系。在RFM中,当因子的数量增加时,相关估计会向精确值收敛,然而,c收敛不如图3A所示的分析中快。这是一个事实的结果,即错误可以在RFM中的任何方向。与PCA相比,RFM中的相关估计值向准确值的收敛速度显著加快。由于PCA中的误差总是在同一个方向上,因此在基于PCA的分析中,绝对误差和相对误差之间没有区别。当因子数小于500时,RFM比PCA更准确地描述了相关系数。

23
大多数88 在职认证  发表于 2022-5-11 05:54:38
随机因素模型中固有的噪声导致RFM中的相关估计误差不会消失,即使有完整的变量集,即使中值估计迅速收敛到观察到的相关性。误差在此定义为差异C模型- CDATA从modeleddata计算的相关性cmodelestimated与从原始数据计算的相关性CDATA之间。绝对误差定义为绝对差异| C模型- cdata |。因子数量-1APCARandom factors因子数量-100-50BPCARandom factors图3:相关性建模的准确性。(A) 使用1000个不同的随机因素模型,以及相关性估计中的第25和第75个(灰色虚线曲线)误差百分位数,对数据集中所有对进行相关系数估计的中值误差(灰色实线;测量百分比)。结果与基于PCA(实心黑色曲线)以及第25和第75(虚线黑色曲线)百分位数的相关性估计值进行了比较。结果显示为因子数的函数(横坐标)。(B) 随机因素模型的中值绝对误差(实心灰色曲线;以百分比点测量),以及第25和第75个百分位(虚线灰色曲线);PCA(实心bla-ck曲线)和第25和第75百分位(黑色虚线曲线)的中位误差。PCA更准确的情况发生在700-800个因子左右(图3)。当因子数非常高时,PCA的相关系数与RFM的中值估计值相当或更好。有这么多因素的因素模型在实际应用中用处不大。3.4协方差协方差估计中的中值误差在RFM中迅速向零收敛。

24
能者818 在职认证  发表于 2022-5-11 05:54:40
第25百分位和第75百分位形成了一个漏斗,当数字因子增加时,漏斗向零收敛(图4A)。尽管PCA在重现相关系数方面比RFM差,但PCA给出了更好的协方差矩阵(图4B)。3.5市场因素的影响股市风险通常由一个称为市场风险因素的单一因素主导(例如Sharpe,1964)。为了更好地分析其他可能的风险因素,我们从数据中减去与市场风险因素相对应的第一主成分,并重新分析剩余数据(“简化数据”)。图5显示,当从数据中去除市场风险因素的影响时,主成分分析在再现相关系数方面变得更加准确。也许更令人惊讶的是,在RFM和PCA中,数据结构的再现在相关系数中的误差度量方面变得同样准确(图5A和5B)。这表明RFMand P C A包含关于相关性的等量信息。作为进一步的检查,我们通过重复抽样正态概率分布n(0,1)来生成随机数据。无花果6显示RFM和PCA在本例中的一致性几乎相同。与图5A和图5B的比较表明,“减少的”罗素相关性的复制准确性与随机数据的准确性没有显著差异。这表明,市场风险因素的波动在很大程度上是独立“噪音”贡献的产物。从数据中去除市场风险因素也会影响covar生产的准确性。PCA在协方差再现方面再次比RFM更准确(图5因子数量-2-1BPCARandom因子数量-100-50APCARandom因子图4:协方差估计的准确性)。

25
能者818 在职认证  发表于 2022-5-11 05:54:44
(A) 使用1,00个不同的随机因素模型,以及cova方差估计中的第25和第75个(灰色虚线曲线)误差百分比,对数据集中所有对的协方差中值误差(实心灰色曲线;测量百分比点)进行估计。结果与基于PC A(实心黑色曲线)以及第25和第75个百分比(虚线黑色曲线)的协方差估计值进行了比较。结果显示为因子数(横坐标)的函数。(B) 使用1000个不同的

26
mingdashike22 在职认证  发表于 2022-5-11 05:54:47
在这种情况下,RFM中协方差矩阵再现的中值误差不偏离零,第25和第75百分位几乎对称地围绕x-ax is。4普遍性在随机投影法中发现了许多有用的概率分布(例如Achlioptas(2003);卡斯基(1998年)。Matouˇsek(2008)发现,几乎任何具有零均值、单位方差和次高斯尾的概率分布都满足约翰逊-林登-特劳斯定理的要求。这些发现表明,随机预测中使用的概率分布可能无关紧要。为了确定anRFM中是否存在这种情况,我们使用基于六种不同概率分布的RFM重新分析数据。我们还讨论了改变概率分布的一些最低阶效应,以及为什么偏离高斯分布只会导致小的修正的原因,在附录证明后的备注a.4中。4.1概率分布我们在这里使用的六种概率分布是Achlioptas(2003)的两种稀疏矩阵模型、列非恶意高斯模型、行归一化高斯模型、基线高斯模型(定义见第2.4节)和统一模型。在每种情况下,概率分布与原点的响应对称,因此期望值为零。每个概率分布也有一个次高斯尾。这些RFM仅通过构造随机投影矩阵B和归一化,与基线高斯RFM不同。4.1.1硬币翻转分布最简单的随机投影规范是Achlioptas(2003)的“随机硬币翻转”算法。

27
大多数88 在职认证  发表于 2022-5-11 05:54:50
通过根据规则独立选择矩阵B的每个元素BPQO来定义:设置Bpq=+1,概率为0.5,设置Bpq=-1,亲婴儿能力为0.5。Achlioptas(2003)提出的第二个随机投影是基于一个更精确的投影矩阵定义的:设置Bpq=+1,概率为1/6,设置Bpq=0,概率为2/3,设置Bpq=-1的概率为1/6。同样,每个元素都是独立于其他元素选择的。根据这些随机预测,我们可以确定两个RFM。因子数b因子数-100-50阿加乌斯柱高斯-罗高斯非标准化邓氏脊髓灰质炎2图7:六种不同投影矩阵规格的比较。实线表示中间值,虚线表示第25和第75百分位。(A) s ix模型中因子数量函数的相关系数估计误差。误差是从1591个时间序列中的整组相关对计算出来的。(B) 作为因子数量函数的六个模型中相关系数估计的绝对误差。4.1.2高斯分布和均匀分布除了基线高斯RFM外,我们还分析了两种基于nor分布的不同RFM。在第一个RFM中,矩阵B基于球形均匀分布。矩阵B的元素定义为bml=zml/Z,(16),其中zml~ N(0,1)a re独立且Z=qPp | zpl |。在这个RFM中,矩阵B的列被极大化,以至于它们的长度正好是一。由于矩阵B列的归一化,矩阵BTB的对角元素∈ Rd×dbehave为正交矩阵。然后(BTB)mm=1,对于所有m=1,2,k、 BTB的非对角元素具有与1/d成比例的零期望和方差(Kaski,1998)。因此,BTB的非对角元素在相对较低的维度上按照零均值正态分布近似分布。

28
kedemingshi 在职认证  发表于 2022-5-11 05:54:54
因此BTB=1+,其中∈ Rd×dha仅在反对角线上为非零元素,E[]=0且| E[]|<2/d。那么矩阵B几乎是正交的。基于高斯概率分布的第二个RFM是对主题的一种变化:在第一个模型中,不是列标准化,而是将投影矩阵B的行标准化为单位长度。这是两种RFM之间的唯一区别,但需要不同的标准化常数是足够的。第六个考虑的RFM由投影矩阵B定义,该矩阵基于连续均匀概率分布。投影矩阵B中的每个元素都是从区间上的均匀分布中独立选择的[-1,1],即Bmn~ U(-1,1)对于每m,n.4.2分布的普遍性图。7表明,所有六种RFM产生的结果几乎同样准确。为了减少噪音,图7显示了50次样本运行的平均结果。当因子数超过10时,所有RFM产生几乎相同的中值精度。唯一的偏差是列归一化高斯模型,当因子数小于5时,它与其他RFM不同。在这种情况下,所有其他RFM也产生相同的结果。第25百分位和第75百分位的准确性主要取决于因子的数量,而不是因子的生成方式。结果表明,投影矩阵ix的详细说明并不那么重要。几乎任何对随机投影矩阵的有效正则构造(当进行适当归一化时)都会产生一个因子模型,它表示近似的相关结构。这里的主要要求似乎是随机选择矩阵元素,并且独立于其他矩阵元素。

29
nandehutu2022 在职认证  发表于 2022-5-11 05:54:57
这支持了RFM代表quitewell的观点,即大部分因素模型将如何描述分析的任务。讨论。1因素的随机性我们着手分析随机选择因素对线性因素模型的影响。我们关注的是因子选择的随机性是否以及如何影响长期股权时间序列的复制,尤其是它们之间的相互依赖性是否被预先考虑。我们发现,一个典型的随机因素模型的精度是相当高的,尤其是在时间序列的复制过程中,相关矩阵得到了很好的保存(第4节)。我们还获得了关于随机因素模型(附录a)准确性的新理论结果。一个随机选择因素的因素模型不太可能用于一种因素建模。RFM能够捕捉公平时间序列细节的原因之一是,由于元素的独立性,随机因素几乎彼此正交。此外,在更高维度的空间中,几乎正交向量的数量更高,这减少了“维度诅咒”(Bellman,1957;Indyk和Motwani,1998)的影响,从而使数据表示更可行。然后,大量随机因素将跨越一个子空间,以便以指定的精度捕获返回时间序列。另一方面,在随机因素模型中,因素的数量是没有界限的。只有在有限数量的因素限制下,才能确保RFM完美地再现原始时间序列。这可以被视为使用RFM的一个缺点。5.2普遍性在经典因素模型中,只有少数因素具有统计学意义。然后,每个因素的解释力应该很大。

30
能者818 在职认证  发表于 2022-5-11 05:55:01
在统计因素模型中,经常使用更多的因素,这也导致在选择因素时遇到更大的模糊性(Ledoit和Wolf,2004)。几个不同的因素可以提供几乎相同的数据。在RFM中,每个因子只有很小的解释力,这表明大量因子集对数据及其结构提供了本质上同样好的描述。这是在我们的计算实验中观察到的。随机因素的数量似乎比随机因素时间序列的精确调整更重要。RFM的构造方式并不重要,只要投影的s元素独立于具有零期望和亚高斯n尾的适当正则概率分布。不管使用的概率分布如何,我们都得到了几乎完全准确的结果。这些发现表明,至少在相关系数方面,RFM存在一种普遍性。结果主要由一组典型的RFM控制,这些RFM具有相当相似的数据复制精度。我们把这组因子模型称为整体。对定理A.1(见备注A.4)的pro的分析支持这样一种观点,即普适性是以概率分布的角度预先发送的。该定理不一定要求概率分布为高斯分布。它有助于保证随机矩阵元素的独立性,而且这一要求可能会进一步放宽。5.3准确性,在我们的分析中,我们使用PCA作为衡量标准,并与RFM进行比较。TheRFM很好地描述了结构和波动性的相关性,但时间序列的单个数据点的重现精度较低。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-20 18:25