楼主: nandehutu2022
623 42

[量化金融] 一种基于内存的方法,用于选择 [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

75%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
65.8368
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
24498 点
帖子
4088
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2022-4-20

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《A memory-based method to select the number of relevant components in
  Principal Component Analysis》
---
作者:
Anshul Verma and Pierpaolo Vivo and Tiziana Di Matteo
---
最新提交年份:
2019
---
英文摘要:
  We propose a new data-driven method to select the optimal number of relevant components in Principal Component Analysis (PCA). This new method applies to correlation matrices whose time autocorrelation function decays more slowly than an exponential, giving rise to long memory effects. In comparison with other available methods present in the literature, our procedure does not rely on subjective evaluations and is computationally inexpensive. The underlying basic idea is to use a suitable factor model to analyse the residual memory after sequentially removing more and more components, and stopping the process when the maximum amount of memory has been accounted for by the retained components. We validate our methodology on both synthetic and real financial data, and find in all cases a clear and computationally superior answer entirely compatible with available heuristic criteria, such as cumulative variance and cross-validation.
---
中文摘要:
我们提出了一种新的数据驱动方法来选择主成分分析(PCA)中相关成分的最佳数目。这种新方法适用于时间自相关函数衰减比指数衰减慢的相关矩阵,从而产生长记忆效应。与文献中的其他可用方法相比,我们的方法不依赖于主观评估,并且计算成本较低。其基本思想是使用一个合适的因子模型来分析顺序移除越来越多的组件后的剩余内存,并在保留的组件占用了最大内存量时停止该过程。我们在合成和真实财务数据上验证了我们的方法,并发现在所有情况下,都有一个清晰且计算上优越的答案,完全符合可用的启发式标准,如累积方差和交叉验证。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--

---
PDF下载:
--> A_memory-based_method_to_select_the_number_of_relevant_components_in_Principal_C.pdf (635.53 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Quantitative Applications Econophysics Sequentially Statistical

沙发
何人来此 在职认证  发表于 2022-6-14 11:50:24 |只看作者 |坛友微信交流群
一种基于内存的方法,用于在主成分分析中选择相关成分的数量Anshul Verma、Pierpaolo Vivoa和Tiziana Di Matteo1,2,3数学系,伦敦国王学院,Strand,London,WC2R 2LS,联合KingdomDepartment of Computer Science,University College London,Gower Street,London,WC1E 6BT,United KingdomComplexity Science Hub Vienna,澳大利亚维也纳1080号Josefst¨adter Strasse 39,邮政编码:anshul。verma@kcl.ac.uk,pierpaolo。vivo@kcl.ac.uk,tiziana。dimatteo@kcl.ac.ukAbstract.我们提出了一种新的数据驱动方法来选择主成分分析(PCA)中相关成分的最佳数量。这种新方法适用于时间自相关函数衰减比指数衰减慢得多的相关矩阵,从而产生长记忆效应。与文献中其他可用的方法相比,我们的方法不依赖于主观评估,并且计算成本较低。其基本思想是使用一个合适的因子模型来分析顺序移除越来越多的组件后的剩余内存,并在保留的组件占到最大内存量时停止该过程。我们在合成和真实财务数据上验证了我们的方法,并在所有情况下找到了一个清晰且计算上优越的答案,该答案完全符合可用的启发式标准,如累积方差和交叉验证。关键词:定量金融、金融网络、数据挖掘内容2内容1简介22主成分分析和保留43个财务数据的最佳主成分数53.1数据结构。53.2市场模式和Marˇcentko Pastur。64长内存75种方法95.1市场模式趋势分析。

使用道具

藤椅
nandehutu2022 在职认证  发表于 2022-6-14 11:50:27 |只看作者 |坛友微信交流群
95.2主成分回归。105.3评估记忆贡献。115.4程序摘要。126将我们的方法应用于合成和经验数据146.1合成系统设置。146.2合成和经验数据的结果。157与选择m的其他启发式方法的比较8结论22附录血液数据集23附录B特征向量的财务解释和投资组合优化24附录O类回归26附录Dθ26的拟合程序附录E指数衰减自相关271。简介随着尖端新技术的到来和大数据时代的到来,近年来可生产、处理和存储的数字信息量以前所未有的速度增长。因此,对复杂的后处理工具(能够识别和辨别agiven高维系统的基本驱动特征)的需求变得至关重要。主成分分析(PrincipalComponent Analysis,PCA)旨在降低数据之间的相关矩阵的维数[1,2],在这方面继续被证明是一种非常有价值的方法。PCA已被证明具有从神经科学到金融的广泛应用。例如,在图像处理中,该技术已被证明可用于识别图像的关键颜色混合,以用于压缩[3]。在分子动力学中,研究人员可用的计算能力不断提高,使得模拟更复杂的系统成为可能,PCA有助于检测重要的化学驱动因素[4]。

使用道具

板凳
何人来此 在职认证  发表于 2022-6-14 11:50:29 |只看作者 |坛友微信交流群
大脑的神经元对各种刺激产生不同的反应,因此PCA可用于神经科学,以找到决定这些反应的共同结合特征[5]。在财务方面,数字存储量和可用历史时间序列的长度显著增加。因此,研究价格变化的多变量结构已成为可能,但由于通常构成高端市场的股票数量巨大,主成分分析已成为识别控制价格演变的关键因素的一种有价值的技术【6–8】。在目标是生成原始相关矩阵的可靠但较小的表示的二元性约简方法中,主成分分析扮演着非常重要的角色。其他已知方法包括信息过滤技术【10–15】、自动编码器【16、17】和独立分量分析(ICA)】【18、19】。PCA使用系统相关矩阵的正交基的子集来完成这项任务。连续的主分量(即响应最大特征值的特征向量)提供了正交方向,数据沿该方向最大程度地分布。因为经验相关矩阵的维数可以大到~ 10- 10,一个非常重要的参数是数字m在提供原始数据的真实表示和避免包含不相关的细节之间,应保持最佳平衡。不幸的是,没有关于如何选择最佳值的自然法则, 文献[1,2]中提出了许多启发式程序和所谓的停止准则。

使用道具

报纸
何人来此 在职认证  发表于 2022-6-14 11:50:33 |只看作者 |坛友微信交流群
最常用的方法(第7节中给出了更多详细信息)是i)scree plot s[2 0],ii)累积解释方差[21,22],iii)基于分布的方法[23,24],以及iv)交叉验证[25,26]。然而,它们都有不同但严重的缺点:i)和ii)基本上都是经验法则,几乎没有数据驱动的调整,iii)不允许用户控制最终结果的总体显著水平,因此对于大型数据集来说是不切实际的,并且最终iv),同时更加客观,依赖较少的假设,通常是强制性的。已经采取了改进每个子类的措施,例如更“主观”的方法[20-22],但通常会导致增加更多假设,或者无论如何都无法完全解决问题[1]。与文献中可用的大多数其他方法不同,本文中我们提出了内容4,即利用在许多经验时间序列中存在的长记忆效应来选择最佳数字m在主成分分析中保留的主成分。我们将利用PCA所暗示的自然因素模型(见下文第5.2节),使用最近引入的代理f或记忆强度,评估每个主要成分对时间序列整体“总记忆”的统计贡献【15】。我们测试了我们的建议对合成数据的适用性,即两个具有不同赫斯特指数的分馏高斯噪声过程(见第6.1节),以及一个经验数据集,其详细信息见附录A。

使用道具

地板
mingdashike22 在职认证  发表于 2022-6-14 11:50:36 |只看作者 |坛友微信交流群
将我们的基于记忆的方法与文献中的其他启发式标准进行比较,我们发现我们的程序不包括任何主观评估,做出了一组非常小且合理的初始假设,计算强度远低于交叉验证。我们的方法通常适用于长内存数据集的任何(无论多大)相关矩阵。金融时间序列提供了一个典型的例子,众所周知,它显示长记忆效应[28]。这种时间序列的波动性确实构成了风险估计和价格变化动态模型的重要输入[29–31]。然而,常见波动性模型的多元扩展,如多元广义自强条件异方差(GARCH)[32]、随机协方差[33]和实现协方差[34],不符合维度过程,阻碍了它们在实践中的应用。解决这个问题的一种流行方法是,首先将主成分分析应用于波动率之间的相关矩阵,然后使用相关矩阵的简化形式为每个成分建立一个单变量波动率模型,如【6】所示。在气候研究中,主成分分析(PCA)被用来创建“气候指数”,以从广泛的测量范围(包括降水量和温度)确定气候数据中的模式[35]。这里,表面温度等因素显示出长程记忆【36】。在神经科学中,主成分分析可用于发现大量可能的神经元,即与特定反应相对应的神经元,例如昆虫大脑对不同气味的反应。在这种情况下,众所周知,长记忆效应起着重要作用。

使用道具

7
kedemingshi 在职认证  发表于 2022-6-14 11:50:39 |只看作者 |坛友微信交流群
因此,我们的框架非常适合处理各种各样的问题。本文的组织结构如下:在第2节中,我们介绍并定义了PCA过程以及如何选择最相关的主成分数。第3节描述了特定于财务数据的相关数量和结果。我们详细介绍了我们提出的基于记忆第5节的主成分选择方法,并在第6节的合成和经验数据上对该方法进行了测试。在第8节中得出一些结论之前,我们在第7节中探讨了我们的方法比文献中现有方法的优势。附录专门描述了经验数据集和技术细节。2、主成分分析和主成分保留的最佳数目在这一部分中,我们简要介绍了主成分分析,使论文更加完整。调用X数据矩阵,其中包含N列(标准化为零平均含量5和单位变量)的单个定义特征,以及T行记录这些特征的时间特殊性。PCA搜索单位长度为w{i=1,…,N}的正交线性基,该基将系统转换为一个最大方差被第一个分量捕获、第二个最大方差被第二个分量捕获的系统,然后很快[1]。因此,第一个分量由w=arg ma x | | w | |=1给出||Xw公司||= arg ma x | | w | |=1w+Ew, (1) 式中+表示TRANSPOSE,E是X的样本相关矩阵,definedaseij=TTXt=1xttj。(2) 搜索WC可以表述为一个约束优化问题,即wemust ma ximisew+Ew- λ(w+w- 1) ,(3)式中,λ是拉格朗日乘子,强制特征向量归一化。微分方程(3)w.r.t.到w we getEw- λw=0。(4) 这意味着拉格朗日乘子必须是E的特征值。

使用道具

8
能者818 在职认证  发表于 2022-6-14 11:50:42 |只看作者 |坛友微信交流群
另请注意,沿w方向的数据方差由w+Ew=λw+w=λ,(5)给出,因此最大方差由顶部特征值实现。因此,FirstPrincipal分量(即数据最大分布的方向a)只不过是对应于顶部特征值λ的顶部特征向量W。Asimilar ar gument适用于后续主成分。PCA的目的是将E导出为m×m ma t r ix,其中m<< N是我们选择保留的主成分数。是否存在最佳值m你应该选择哪个?显然,这是一个必须解决的重要问题,因为它确定了简化相关矩阵的“最佳”大小,该大小刚好足以描述数据的主要特征,而不包括不相关的细节。本文针对这一问题,提出了一种选择最优值m的新方法我们应该为长内存数据保留的主要组件的数量。3、财务数据3.1。数据结构在本节中,我们描述了我们在财务数据环境中使用的数据矩阵的一般结构。我们考虑一个由N只股票和T只记录其内容的日收盘价组成的系统。我们计算给定股票i,ri(t)的低收益时间序列,定义a s:ri(t)=ln pi(t+1)- ln pi(t),(6),其中pi(t)是时间t时股票i的价格。在标准化ri(t)使其具有零均值和单位方差后,我们确定了用于波动率的代理,即资产回报率的可变性(增加或减少),如ln | ri(t)|【38】。大多数仓促波动率模型——假设波动率是随机且非常数的——假设股票的回报率i根据[39]ri(t)=δ(t)expωi(t),(7)其中δ(t)是具有有限方差的白噪声,ωi(t)是对数波动率项。

使用道具

9
大多数88 在职认证  发表于 2022-6-14 11:50:45 |只看作者 |坛友微信交流群
经验一项编码了波动率的结构,以及它如何影响总体回报率。我们注意到,出于我们的目的,我们能够将所有股票的白噪声项设置为相同的,因为定义时它不包含内存[40](我们已经检查过,将此假设更改为包含股票相关白噪声项不会改变我们的结果)。取等式7的绝对值和两边的logo,等式7变为ln | ri(t)|=ln |δ(t)|+ωi(t)。(8) 我们发现,与ln | ri(t)|一起工作,会增加波动率的代理ωi(t)的附加效益,这反过来又使波动率更适合因子模型。由于δ(t)是适用于所有股票的随机比例因子,我们可以将其设置为1,因此ωi(t)=ln | ri(t)|。我们还将ωi(t)t标准化为平均值0和标准偏差1,如【41】中所述。最后,调用X数据matr ix,其中包含每个单独定义库存的N列,以及记录此类库存时间内特定收益的T行,以便X的i,T条目为Xit=ωi(T)。3.2. 市场模式和Marˇcentko Pastur对于金融中的对数波动率【7,42】(详见附录B),一段时间以来,人们已经知道,由于DATA样本的不确定性,经验相关矩阵E的最小特征值可能会受到噪声的严重污染。在我们寻找最相关的m因此,重要的是要将自己定位在一开始受噪声影响较小的频谱部分。为了便于识别,我们将采用高斯白噪声过程产生的特征值的零分布。

使用道具

10
mingdashike22 在职认证  发表于 2022-6-14 11:50:48 |只看作者 |坛友微信交流群
这由Cerematedmarˇcenko Pastur(MP)分布[7,43,44]p(λ)=2πqσp(λ)给出+- λ)(λ - λ-)λ、 (9)其中p(λ)是在λ中有支撑的特征值的概率密度-< λ < λ+.边缘点λ±=σ1 ±√q, q=T/N,σ是所有内容物库存的标准偏差。通过将E的经验特征值分布与MP定律(9)进行比较,我们可以看到有多少特征值和主成分可能被噪声破坏,因此应从一开始就应丢弃。最近,这一程序受到了一些批评【45–47】:有人认为,携带弱相关性股票集群真实信息的特征值仍可能被掩埋在MP sea之下,可能需要更明确的过滤策略才能将这种相关性浮出水面。关于非正态分布随机数据的MP定律的其他推广以及金融数据的应用,可参见【48】和【49】。实际上,我们首先从矩阵X(由合成或经验数据构建)创建经验相关矩阵E=(1/T)X+X,然后将MP定律转换为其特征值的经验分布。这是通过将公式(9)中的Q和σ视为自由参数来实现的,以考虑有限样本偏差【46】。英菲格。1(a)中,我们绘制了附录a中所述经验数据集的整体特征值直方图,并在插图中绘制了半对数标度中的一些异常值λ>λ+。众所周知,E的一些特征值远远超出了MP定律的上边缘,并且最大特征值甚至更远(见图1(a))。这意味着第一主成分占数据可变性的很大一部分,并且是市场模式的一个众所周知的影响【41,50,51】。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-6-17 09:18