楼主: nandehutu2022
1186 36

[量化金融] 多元时间序列随机化的最大熵方法 [推广有奖]

21
kedemingshi 在职认证  发表于 2022-6-24 08:24:48
前两行指的是根据rawdetrending计算权重的投资组合,该投资组合仅在样本中执行,以计算相关性和权重,样本外风险通过保留新原始回报的权重来计算。每种情况下报告的数字是指在2014年9月至2018年11月期间的一组30天非重叠时间窗口内计算的平均样本外风险。在过度拟合的经典情况下,一个完全抑制所用模型的任何样本内方差的事实(例如,当使用阶数的多项式拟合n点时)-1). 相反,对于手头的模型,情况并非如此。事实上,这是一个很好的例子。在附录E中的上述示例中,我们通过增加集合所受约束的数量(因此或拉格朗日乘数)来逐步获得更好的样本外性能来说明这一点。与最大口径原则的关系在总结之前,让我们指出我们的方法与Jaynes的最大口径原则之间的有趣联系。最近的研究表明,通过将系统的时域映射为伊辛模型的空间维度,可以计算出使离散时间内演化的两态系统的能力最大化的时间相关概率分布。这完全等同于我们将依赖时间的系统映射到数据矩阵上,其中系统的时间维度映射到表示矩阵的晶格的离散空间维度上。从这个角度来看,我们的集成方法代表了一种新的方法,可以计算并最大化在离散时间内以连续状态数采样的系统。这也允许从不同的角度解释最近发布的一些相关矩阵结果。

22
mingdashike22 在职认证  发表于 2022-6-24 08:24:51
事实上,在作者获得本文所述样本步骤数据矩阵的概率分布时,通过最大口径原则,可以通过首先将系统的时间维度映射到相应晶格的空间维度上,然后对其施加适当的约束,获得相同的结果。讨论在本文中,我们提出了一种基于统计力学系综理论的新形式来对时间序列数据进行假设检验。然而,在物理学和自然科学中,假设检验是通过重复的受控实验进行的,而在复杂的相互作用系统中,这种情况很少发生,因为缺乏统计稳定性和可控性往往会妨碍实验结果的再现性。这反过来又妨碍了评估所做的观测是否与所研究系统动力学的给定假设一致。需要生成给定数据样本的随机对应集合。支持这种范式的唯一指导原则是熵最大化原则,它允许用精确的物理类比来解释集合的配分函数。事实上,正如我们所展示的,在我们的框架中,数据样本中的事件对应于具有多个能级的物理系统中的费米子粒子。在这方面,我们的方法明显不同于其他已知的生成合成数据的方法,例如bootstrap。

23
能者818 在职认证  发表于 2022-6-24 08:24:55
值得注意的是,尽管本文中使用的哈密顿量对应于介子相互作用系统,因此原始数据中的相关性并不是根据nParticle之间的相互作用来获取的(类似伊辛模型的情况就是如此),这里介绍的系综仍然能够部分捕获11/20通过粒子嵌入的“环境”相互作用系统的典型特性,即耦合局部温度和化学势的系统。总而言之,我们的框架非常灵活,可以通过移除或添加系综哈密顿量中的约束来轻松适应手头的数据。从这个角度来看,可以使用约束的数量和类型在非常不同的应用程序之间进行“插值”。事实上,松散约束的集合可以作为感兴趣的经验数据集的高度随机化的对应方,因此可以用于统计验证目的,即确定在各方之间无法共享敏感数据的情况下(例如,由于隐私限制),哪些特别有用,共享统计特性与经验数据非常匹配的合成数据可能是一个非常有价值的选择。例如,此处显示的应用程序中的约束(即高于和低于平均值的总和)导致两种费米子粒子。更严格的限制(例如,对属于经验分布某些百分位的数据)将导致其他物种被添加到集合中。不一定与施加在集合上的约束相关。

24
能者818 在职认证  发表于 2022-6-24 08:24:58
因此,它既可以测试理论模型的结构,也可以揭示集合未完全捕获的统计特性中的新信息,从而为各种复杂系统提供有价值的见解。我们通过一个财务案例研究说明了其中的一些方面,其中我们证明,基于我们的集成方法的股票回报率下降会导致样本外投资组合风险的大幅降低。让我们再次强调,我们的方法的主要局限性是没有明确说明交叉相关性或时间相关性。如上所述,原则上可以通过遵循此处所述的相同分析框架来解决这些问题,但会导致相当不易处理的模型。我们的目标是在未来的工作中明确处理时间相关的情况。数据可用性本文使用的财务数据可从雅虎财经免费下载。确认。五十、 感谢EPSRC数字经济早期职业奖学金(批准号EP/N006062/1)的支持。作者贡献声明作者贡献:R.M.和G.L.设计研究;R、 M.进行研究和分析数据;R、 M.和G.L.写了这篇论文。其他信息利益冲突:作者声明没有利益冲突。参考文献1。Hydrol公司。394, 447–457 (2010).2、Drótos,G.、Bódai,T.&Tél,T.。量化非自治耗散动力系统中的非自治性:气候变化的应用。物理。修订版。E 94022214,内政部:10.1103/PhysRevE。94.022214 (2016).3.von Bünau,P.、Meinecke,F.C.、Király,F.C.&Müller,K.-R.在多元时间序列中寻找平稳子空间。物理。修订版。利特。103、214101,内政部:10.1103/PhysRevLett。103.214101 (2009).Tsallis,C.、Anteneodo,C.、Borland,L.和Osorio,R.非扩展统计力学和经济学。物理。

25
mingdashike22 在职认证  发表于 2022-6-24 08:25:01
A: 静态机械。其应用程序。324, 89–100 (2003).CONT,R.《资产回报的经验性质:程式化事实和统计问题》。数量。《金融》1223–236(2001)。12/206.Livan,G.、Inoue,J.-i.&Scalas,E.《金融时间序列的非平稳性:对最优投资组合选择的影响》。J、 统计机械。理论实验2012,P07025(2012)。Davidson,A.C.&Hinkley,D.V.Bootstrap方法及其应用,第1卷(剑桥大学出版社,1997年)。8、Kuonen,D.bootstrap方法及其应用简介。WBL Angewandter Stat.ETHZ 2017,1–143(2018)。Haukoos,J.S.&Lewis,R.J.高级统计:具有“差异”分布的统计数据的自举置信区间。Acad。急诊医学12360–365(2005)。10、Lütkepohl,H.《多重时间序列分析新导论》(Springer Science&Business Media,2005)。Qin,D.《var建模方法的兴起》。J、 经济。Surv公司。25, 156–174 (2011).Whittle,P.时间序列中的fit检验。Biometrika 39,309–318(1952年)。Bollerslev,T.广义自回归条件异方差。J、 计量经济学31307–327(1986)。Wishart,J.二阶矩统计分布律的证明。Biometrika 35,55–57(1948)。15、Livan,G.、Novas,M.&Vivo,P.《随机矩阵导论:理论与实践》,第26卷(Springer,2018)。Marˇcenko,V.A.和Pastur,L.A.一些随机矩阵集的特征值分布。数学苏联斯博尼克,457(1967)。17、Schmitt,T.A.、Chetalova,D.、Sch"afer,R.&Guhr,T.《金融时间序列的非平稳性:一般特征和尾部行为》。EPL(Europhysics Lett.103,58003(2013)。18、Park,J.&Newman,M.E.《网络统计力学》。物理。修订版。E 70066117(2004年)。19.99030301,内政部:10.1103/PhysRevE。99.030301 (2019).20、Cimini,G.等人,《真实世界网络的统计物理》。纳特。修订版。物理。

26
可人4 在职认证  发表于 2022-6-24 08:25:04
1, 58 (2019).21、Masuda,N.、Kojaku,S.和Sano,Y.保持节点强度的相关矩阵配置模型。物理。修订版。E 98012312(2018)。22.Squartini,T.和Garlaschelli,D.分析最大似然法,用于检测真实网络中的模式。新J.Phys。13083001,内政部:10.1088/1367-2630/13/8/083001(2011)。Jaynes,E.T.《最小熵产生原理》。年度。修订版。物理。化学。31, 579–601 (1980).信息理论与统计力学。物理。回顾106620(1957)。信息理论与统计力学。二。物理。评论108171(1957)。Garlaschelli,D.&Loffredo,M.I.最大似然:从复杂网络中提取无偏信息。物理。修订版。E 78015101(2008)。27、Cubero,R.J.、Jo,J.、Marsili,M.、Roudi,Y.&Song,J.统计临界性出现在信息量最大的表述中。J、 统计机械。理论实验2019,063402(2019)。28、《美国统计协会杂志》90928–934(1995)。Akaike,H.《信息论与最大似然原理的扩展》。在hirotuguakaike的论文选集中,199–213(Springer,1998)。Almog,A.&Garlaschelli,D.《实时序列中的二进制与非二进制信息:经验结果和最大熵矩阵模型》。《物理学》新杂志16,093015(2014)。31、Benjamini,Y.和Yekutieli,D.错误发现率-调整选定参数的多个置信区间。J、 上午。《统计协会》第100、71–81号(2005年)。Okada,M.、Yamanishi,K.和Masuda,N.事件间时间的长尾分布为指数分布的混合物。皇家Soc。打开Sci。7 (2020).Marchenko,V.A.&Pastur,L.A.。一些随机矩阵集的特征值分布。Matematicheskii Sbornik114507–536(1967)。34、Plerou,V.、Gopikrishnan,P.、Rosenow,B.、Amaral,L.A.N.和Stanley,H.E。

27
何人来此 在职认证  发表于 2022-6-24 08:25:07
金融时间序列中交叉相关性的普遍性和非普遍性。物理。审查信函831471(1999)。13/2035.Laloux,L.、Cizeau,P.、Bouchaud,J.-P.&Potters,M.《金融相关矩阵的噪声修饰》。物理。审查信函831467(1999)。Livan,G.、Alfarano,S.&Scalas,E.《随机相关矩阵光谱特性的精细结构:金融市场的应用》。物理。修订版。E 84,016113(2011)。Merton,R.C.有效投资组合前沿的分析推导。J、 《金融定量分析》,1851-1872(1972)。38、Bun,J.、Bouchaud,J.-P.&Potters,M.《清洁相关矩阵》。《风险杂志》2015(2016)。39、Clauset,A.、Shalizi,C.R.&Newman,M.E.《经验数据中的幂律分布》。《暹罗评论》,661–703(2009)。Jorion,P.《风险价值》(McGraw-Hill Professional Publishing,2000)。41.伊辛模型。arXiv预印本arXiv:1008.2726(2010)。配分函数的显式计算我们希望找到一个概率密度函数p(W),使得一组可观测值的期望值符合ho`(W)i=O``=1,。。。,LW公司∈ wP问题似乎几乎不可能解决,因为p(W)可能由比我们施加的约束数量大得多的自由度来确定。然而,正如正文中所介绍的,这可以通过使用最大熵原理来实现,或者换句话说,通过在概率分布上添加另一个(函数)约束来实现,这要求P(W)也应该使吉布斯熵最大化:S(W)=-∑W∈WP(W)lnp(W),(12)同时保留约束:hO`(W)i=∑W∈WO`(W)P(W)=O`(W)=O`,(13)和归一化:∑W∈WP(W)=1。(14) 等式。

28
kedemingshi 在职认证  发表于 2022-6-24 08:25:10
(12) -(14)定义一个约束优化问题,通过求解以下方程找到其解: P“S+α1-∑W∈WP(W)+L∑`=1β\'O`-∑W∈WO`(W)P(W)!#=0 , (15)α,β`` = 1,..., 左侧(W)=∑`β\'O\'(W)作为系综的哈密顿量,z=eα+1=∑我们-H(W)的配分函数,q的解。(15) 读数:P(W)=e-H(W)Z.(16)∑W上述方程中使用的系统的相空间仍然需要适当指定。系统的配分函数Z,我们只需要求出-H(W)在所有可能的配置上,即在所有theN×Treal值矩阵的集合上。回顾主文本A±=Θ(±W)和W±=±WΘ(±W)中引入的符号,我们可以在相空间上写入和,如下所示:∑W∈W≡N∏i=1吨∏t=1∑(0,1)(A+it,A-it)=(1,0)(0,0)Z+∞dw+itZ+∞数据仓库-它(17) 14/20我们现在可以计算系综的配分函数Z:Z=∑W∈我们-H(W)==N∏i=1吨∏t=1∑(0,1)(A+it,A-it)=(1,0)(0,0)Z∞dw+itZ∞数据仓库-ite公司-[(αNi+αTt)A+it+(βNi+βTt)A-it+(γNi+γTt)w+it+(σNi+σTt)w-it]=N∏i=1吨∏t=11+Z∞数据仓库e-(αNi+αTt)-(γNi+γTt)w-Z∞数据仓库e-(βNi+βTt)+(σNi+σTt)w=N∏i=1吨∏t=1“1+e-(αNi+αTt)γNi+γTt+e-(βNi+βTt)σNi+σTt#=N∏i=1吨∏t=11+euit-εItItit+euit-εItIt!,(18) 其中,所有拉格朗日乘数必须为正,我们定义了以下数量,以便对正文中引入的两种费米气体进行明显的分析:Ti j=log(σTi+σej)+log(γTi+γej),εi j=+Ti jαTi+αej+βTi+βej,ui j=kTi jαTi+αej-βTi-βej-logσTi+σejγTi+γej!=-ui j.根据上述配分函数,通过公式(16),我们可以推导出正文公式(5)中的概率密度函数,该函数量化了从集合中绘制特定实例的概率。

29
何人来此 在职认证  发表于 2022-6-24 08:25:13
定义这种概率分布的数量具有明确的物理意义,其解读如下:P+it=e-(αNi+αTt)(γNi+γTt)在时间tP的第i个时间序列中观察到正值的概率-it=e-(βNi+βTt)(σNi+σTt)时间t1时在第i个时间序列中观察到负值的概率-P+it-P-it在时间tQ+it(w)=(γNi+γTt)e时在第i个时间序列中观察到缺失值的概率-(γNi+γTt)w时间tQ时第i个时间序列的正值w的概率分布-it(w)=(σNi+σTt)e-(σNi+σTt)w在没有数据丢失的情况下,第i个时间序列的负值w的概率分布,即(a+it,a-它)6=(0,0),等式(17)中定义的和发生变化,因此,分区函数(18)变为:Z=N,T∏i、 t=1Zit=N,t∏i、 t=1“e-(αNi+αTt)γNi+γTt+σNi+σTt#。注意到A+it=0后=> w+it=0∧ w-如果大于0,则可以很容易地找到从集合中提取实例的概率:P(W)=N,T∏i、 t=1P+itQ+it(w+it)A+itP-itQ公司-it(w-it)1.-A+it,(19),其中上述表达式中的数量定义为上述数量。20a10-110010110-1100101102103104B1001011020-210-1100101102103104C图5。esemble在数据中保持周期性的能力。a) 两个不同城市(1号城市是波士顿,2号城市是洛杉矶)每周温度与平均集合谱的经验功率谱。b) 每日温度的相同曲线图。c) 8小时温度的相同绘图。查看公式(19),我们可以理解我们是如何在正文中获得公式(6)的。为了模拟集合中一组时间序列的绘制,我们首先需要构建一个正事件的“拓扑”,将一个正事件放置在概率为+的入口中,反之则放置一个负事件。

30
nandehutu2022 在职认证  发表于 2022-6-24 08:25:16
然后,我们需要根据分配给它的事件类型,使用上面定义的两个指数分布Q±It中的一个来放置权重。该程序与正文等式(6)中的超指数分布相比较,超指数分布可通过标准生成函数方法获得,其参数为λ+it=(γNi+γTi)-1和λ-it=(σNi+σTi)-1.B对一组温度时间序列的应用我们现在将正文中介绍的框架应用于以不同频率(周/天/8小时)记录的温度为特征的时间序列集inN=30个不同的北美城市(2013年7月至2018年7月的周数据范围,2016年7月至2018年7月的日数据范围,2017年1月至2018年7月的8小时数据范围)。我们这样做是为了测试我们的集成方法捕获时间序列主要特征的能力,这些特征的最相关统计特性与我们在主要论文中研究的财务回报显著不同。特别是,我们的主要重点将放在集合捕获不同时间尺度上表征温度数据的周期性的能力上。正如在正文中所做的那样,我们用重新调整为零均值的值表示asWtheN×Tdata矩阵(在温度分别以每周、每天和8小时的频率记录的情况下,t=2647302321),并表示从相应的集合中提取的通用实例。为了方便起见,我们在此重新定义了矩阵A±=Θ(±W),W±=±WΘ(±W)。我们将要使用的集合完全由主要论文中概述的2(N+T)公式中的6(N+T)约束规定:H(W)=N∑i=1吨∑t=1αNi+αTtA+it+γNi+γTtw+it+σNi+σTtw-它, (20) 导致配分函数:Z=N∏i=1吨∏t=1Zit=N∏i=1吨∏t=1“e-(αNi+αTt)γNi+γTt+σNi+σTt#。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-16 08:38