人大经济论坛 › 论坛 › 经济学人二区 › 外文文献专区 › 多元时间序列随机化的最大熵方法

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

12 3 4 下一页

发帖

楼主: nandehutu2022

451 36

[量化金融] 多元时间序列随机化的最大熵方法 [推广有奖]

0关注
4粉丝

会员

学术权威

75%

还不是VIP/贵宾

威望: 10 级
论坛币: 10 个
通用积分: 65.5296
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 24498 点
帖子: 4088
精华: 0
在线时间: 1 小时
注册时间: 2022-2-24
最后登录: 2022-4-20

楼主

nandehutu2022

发表于 2022-6-24 08:23:41 |只看作者 |坛友微信交流群|倒序 |AI写论文

相似文件

换一批

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

英文标题：
《Maximum Entropy approach to multivariate time series randomization》
---
作者：
Riccardo Marcaccioli, Giacomo Livan
---
最新提交年份：
2020
---
英文摘要：
Natural and social multivariate systems are commonly studied through sets of simultaneous and time-spaced measurements of the observables that drive their dynamics, i.e., through sets of time series. Typically, this is done via hypothesis testing: the statistical properties of the empirical time series are tested against those expected under a suitable null hypothesis. This is a very challenging task in complex interacting systems, where statistical stability is often poor due to lack of stationarity and ergodicity. Here, we describe an unsupervised, data-driven framework to perform hypothesis testing in such situations. This consists of a statistical mechanical approach - analogous to the configuration model for networked systems - for ensembles of time series designed to preserve, on average, some of the statistical properties observed on an empirical set of time series. We showcase its possible applications with a case study on financial portfolio selection.
---
中文摘要：
自然和社会多变量系统通常通过对驱动其动力学的可观测对象的一组同步和时间间隔测量来研究，即通过一组时间序列。通常，这是通过假设检验完成的：经验时间序列的统计特性是根据适当的零假设下的预期进行检验的。在复杂的交互系统中，这是一项非常具有挑战性的任务，由于缺乏平稳性和遍历性，统计稳定性通常很差。在这里，我们描述了一个无监督、数据驱动的框架来在这种情况下执行假设检验。这包括一种统计力学方法，类似于网络系统的配置模型，用于时间序列集合，旨在平均保留在经验时间序列集上观察到的一些统计特性。我们通过一个金融投资组合选择的案例来展示其可能的应用。
---
分类信息：

一级分类：Quantitative Finance 数量金融学
二级分类：Statistical Finance 统计金融
分类描述：Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--
一级分类：Physics 物理学
二级分类：Statistical Mechanics 统计力学
分类描述：Phase transitions, thermodynamics, field theory, non-equilibrium phenomena, renormalization group and scaling, integrable models, turbulence
相变，热力学，场论，非平衡现象，重整化群和标度，可积模型，湍流
--
一级分类：Physics 物理学
二级分类：Physics and Society 物理学与社会
分类描述：Structure, dynamics and collective behavior of societies and groups (human or otherwise). Quantitative analysis of social networks and other complex networks. Physics and engineering of infrastructure and systems of broad societal impact (e.g., energy grids, transportation networks).
社会和团体（人类或其他）的结构、动态和集体行为。社会网络和其他复杂网络的定量分析。具有广泛社会影响的基础设施和系统（如能源网、运输网络）的物理和工程。
--

---
PDF下载：
-->

Maximum_Entropy_approach_to_multivariate_time_series_randomization.pdf (2.89 MB)

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：多元时间序列时间序列随机化最大熵 Multivariate

相关帖子

使用道具举报

沙发

能者818

发表于 2022-6-24 08:23:47 |只看作者 |坛友微信交流群

多元时间序列随机化的最大熵方法Riccardo Marcacioliand Giacomo Livan1,2，*伦敦大学学院计算机科学系，66-72 Gower Street，London WC1E 6EA，UKK*g。livan@ucl.ac.ukABSTRACTNatural社会多变量系统通常是通过对驱动其动力学的可观察物进行一组同步和时间间隔测量来研究的，即通过一组时间序列。通常，这是通过假设检验完成的：经验时间序列的统计特性是根据适当的零假设下的预期进行检验的。在复杂的交互系统中，这是一项非常具有挑战性的任务，因为在复杂的交互系统中，由于缺乏平稳性和非平稳性，统计稳定性往往很差。在这里，我们描述了一个无监督、数据驱动的框架来在这种情况下执行假设检验。这包括一种统计力学方法，类似于网络系统的配置模型，用于时间序列集合，旨在平均保留在一组经验时间序列上观察到的一些统计特性。我们通过金融投资组合选择的案例研究展示了其可能的应用。1引言假设检验是科学方法的核心。在其一般公式中，它取决于将系统的观测统计特性与在无效假设下预期的统计特性进行对比。特别是，假设检验允许在进行经验测量时丢弃系统的潜在模型，而在这些模型下，这种测量是极不可能的。然而，通常没有理论来指导系统动力学的研究。更糟糕的是，在许多实际情况下，一个人可能会得到一组单一的、可能无法生产的实验数据。

使用道具举报

藤椅

mingdashike22

发表于 2022-6-24 08:23:50 |只看作者 |坛友微信交流群

在处理最复杂的系统时，情况确实如此，这些系统的集体动态通常是明显的非平稳的，范围从气候1、粮食活动和金融市场4到6。这反过来又使复杂系统中的假设检验成为一项非常具有挑战性的任务，这可能会妨碍评估在给定数据样本中观察到的哪些特性是“非典型的”，即不太可能在不同时间点收集的样本中再次观察到。这个问题通常通过构建艺术时间序列集合来解决，这些时间序列与所研究系统的动力学生成的时间序列具有某些特征。这可以通过建模或纯数据驱动的方式完成。在后一种情况下，研究人员和从业者最常用的技术是引导7，8，这相当于通过重采样生成可用数据的部分随机版本，然后可以将其用作执行假设检验的零基准。根据其具体情况，自举可以解释平稳性的自相关和互相关形式，这限制了其处理复杂系统的能力。就模型驱动方法而言，文献极其丰富。从广义上讲，建模方法是基于系统动力学的先验结构假设，以及确定最能解释某类模型中可用观测集的参数值（例如，通过最大似然法）。多元时间序列的一个广泛使用的类别是自回归模型，如VAR、ARMA和GARCH，除其他原因外，它们确实是最初引入来进行假设检验的。在此类模型中，每个时间优先原则的未来值。

使用道具举报

板凳

能者818

发表于 2022-6-24 08:23:53 |只看作者 |坛友微信交流群

因此，一旦校准，自回归模型就会产生相当有限的时间序列集合，不允许探索与经验观察有实质性差异的场景。另一种建模哲学更强调捕捉多元卫星的结构集体特性，即研究中系统的相关结构，试图在生成的模型的可分析性和对经验观测的坚持性之间取得平衡。第一个也是使用最广泛的随机矩阵模型之一是Wishart集合14，15，其最简单的形式导致图1中著名的Marˇcentko Pastur分布。模型的示意图。从时间序列的经验集W开始，我们通过在最大化吉布斯熵的相空间上找到概率测度P（W），同时保持约束条件{Ol（W）}Ll=1作为系综平均值，来构建其无偏随机化。概率分布P（W）仅取决于通过最大化集合中的绘制可能性W可以找到的参数。在图中，橙色、绿松石色和黑色分别表示entriesWit的正值、负值或空值，而每种颜色的较亮阴影用于显示较高的绝对值。如图所示，P（W）与W相似。请参阅复杂网络正则系综的类似图表。不相关系统，直到最近处理财务数据非平稳性的发展。在这里，我们提出了一种受统计力学启发的最大熵方法，对时间序列集进行假设检验。

使用道具举报

报纸

nandehutu2022

发表于 2022-6-24 08:23:56 |只看作者 |坛友微信交流群

从最大熵原理出发，我们将在多元概率分布中引入相关结果的（gran）正则系综，该系综允许以这些测量值为中心进行无偏采样，这代表了本文的主要贡献。我们在下面提出的理论与复杂网络的正则系综18-21有一些相似之处，并且，正如我们将要展示的那样，继承了其基于相似性最大化的强大校准方法。本文的组织结构如下。在下一节中，我们将概述我们的方法的一般形式。然后，作为一个验证性的例子，我们展示了如何使用引入的方法从随时间推移的重复测量中重建未知的概率密度函数。之后，我们继续研究多元时间的最一般情况，并提到我们的方法与Jaynes的最大口径原理之间的一个有趣的类比。一般框架描述是长度为T的时间序列的所有实值集的集合（即sizeN×T的实值矩阵集），并且∈ Wbe我们要对其进行假设检验的经验数据集（即，在时间t采样的系统中存储第i个变量的值，以便witfort=1，…，t表示变量i的采样时间序列）。我们的目标是确定一个概率密度函数p（W），使得一组可观测值（`=1，…，L）的期望值sho`（W）iof与根据W经验测量的相应数量的值O`一致。2/20fyingP（W）作为最大化熵泛函（W）=-∑W∈WP（W）ln P（W），同时满足theLconstraintshO`（W）i=∑WO`（W）P（W）=O`和归一化条件∑WP（W）=1。

使用道具举报

地板

mingdashike22

发表于 2022-6-24 08:24:00 |只看作者 |坛友微信交流群

众所周知，24，25，该读数sp（W）=e-H（W）Z，（1）H（W）=∑`β\'O\'（W）β\'`=1，。。。，l约束条件和Z=∑我们-H（W）是系综的配分函数，它验证hO`（W）i= ln Z/ β`,`.分区约束是指找到分配给相空间W区域低概率的分布P（W），其中与拉格朗日乘子β相关的观测值与在经验集合W中测得的值非常不同，对于与WI保持一定程度相似性的区域，这种可能性很高（应该注意的是，inP（W）O’W出现在从集合中提取的实例中。拉格朗日乘子的存在性和唯一性确保了从集合中提取经验矩阵W的可能性最大化。在接下来的两个部分中，我们将用两个示例来说明我们的一般框架——一个用于单时间序列情况，一个用于多变量情况。在这两个例子中，我们将选择可能的约束条件，这些约束条件可以在金融时间序列分析中表现出清晰的解释。然而，应记住，此类约束决不能被解释为一般规定，并且可以根据感兴趣的应用重新获得以下所有结果，以及允许分析解决方案的任何其他约束集。我们的目标是重建单时间序列的概率密度函数。在下一节中，我们将继续考虑多变量和相关情况。然后，让我们考虑一个1×温度数据矩阵，该矩阵来自对所考虑系统的可观测数据的重复采样。

使用道具举报

7楼

能者818

发表于 2022-6-24 08:24:04 |只看作者 |坛友微信交流群

如果过程是平稳的和时间无关的，这相当于从其给定的未知分布中对随机变量进行采样，因此模型的任务可以转化为重建ξ∈ [0,1]dξqξww平均值，从qξ导出的一个或多个量。可能的选择是：o每对经验观测到的相邻分位数内的数据点数量：Nξi=∑tΘ（重量-qξi-1) Θ(-Wt+qξi）o每对相邻分位数内数据点的累积值：Mξi=∑tWtΘ（重量-qξi-1) Θ(-Wt+qξi）o位于每对相邻分位数内的数据点的累积平方值：Mξi=∑tWtΘ（重量-qξi-1) Θ(-Wt+qξi）在上述每个约束条件下，我们假设di=2。，d、我们已经使用Θ（·）来表示Heaviside的阶跃函数（即，Θ（x）=1x>0Θ（x）=0α，我们可以自由选择将保持ξi的能力施加在系综上我∈ [1，d]以及总累计价值=∑iMξi和总累积平方值Sm=∑iMξi，以及每个ξiandMξ是分别的。请注意，上面列表中的FirstConstraint有效地限制了集合的分位数。正如我们稍后将更广泛地讨论的那样，上述一组约束是可自由决定的。消除这种离散性的一种可能策略是，根据参考文献中介绍的定义，基于旨在折衷分辨率和相关性的分块程序对数据进行分区。。3/20A定义的约束集将导致不同的哈密顿量、不同数量的拉格朗日乘子，因此，舒适度将取决于总共3（d-1）参数：H（W）=d∑i=1吨∑t=1ai+重量αi+重量βiΘ（重量-qξi-1) Θ(-Wt+qξi）。（2）当然，选择约束数量的自由是有代价的。

使用道具举报

8楼

能者818

发表于 2022-6-24 08:24:07 |只看作者 |坛友微信交流群

首先，必须注意的是，似然度（LikelihoodWlatter）可以在量级（通过为α的条目选择不同的值）和大小（通过选择不同的td）上变化。总的来说，考虑到约束的数量，解决为约束找到最佳位置的问题可能变得非常重要，超出了当前工作的范围。然而，粗略地说，从定义的集合中随机抽取的可能性是数量约束的递增函数，这与参数数量越多，用于训练模型的数据的统计数据就越好的想法是一致的。因此，为了避免过度拟合，在给定一组约束条件的情况下，我们可以使用标准模型选择技术（如Bayesianor-Akaike信息标准）比较不同的OFDY值。在下面，我们将展示如何将刚刚概述的方法应用于合成数据集。对于本例，我们假设数据生成过程遵循截短的标准正态分布和无截短的学生t分布（ν=5自由度）的平衡混合。我们将用于构建各自的群的两个模型由以下哈密顿量指定：H=∑我αiNξi+βiMξiH类=∑ihαiNξi+βMξi+γMξii（3）由hw得到的模型总共有2（d-1）参数和将保留每对相邻分位数中包含的数据点的平均数及其累积值，而来自H的模型将由D+1参数表征，并将保留每对相邻分位数中包含的数据点的平均数以及所有数据点上计算的总平均值和方差。

使用道具举报

9楼

大多数88

发表于 2022-6-24 08:24:10 |只看作者 |坛友微信交流群

为了找到能够保持所选约束的拉格朗日乘数，我们首先需要找到两个集合的分区函数1,2=∑我们-H1,2（W）。为此，我们首先需要指定相空间上的和：∑W∈W≡T∏t=1Zqξdqξdwt。（4）功能如下节所示；可通过类似步骤获得以下结果）：Z=T∏t=1d-1.∑i=1e-αie-βiqξi-e-βiqξi+1βi（5）Z=T∏t=1d-1.∑i=1rπ4γeβ4γ-αi-erf公司β+2γqξi√γ+ erf公司β+2γqξi+1√γ（6）其中，对于erf，我们表示高斯误差函数erf（z）=πRze-tdt。在图2中，我们展示了如何从不同的信息量（即不同的样本大小）和分位数向量集Q开始，由分区函数桑扎尔（sandzare）生成的模型能够重建潜在的真实分布=[-∞,q0.25、q0.5、q0.75、，∞]下一节讨论的案例见附录A）。首先，我们注意到，正如预期的那样，从更多的数据中估计未知分布会得到更接近真实潜在分布的估计。此外，查看图2，通过计算估计分布与真实分布的Kullback–Leibler散度，weZZstatements更加定量：对于有40个数据点的情况，我们观察到KL（PZ | PT）=0.10和DKL（PZ | PT）=0.19，而对于有4000个样本的情况，我们观察到DKL（PZ | PT）=0.01和DKL（PZ | PT）=0.08。当然，我们还不能得出这样的结论，即对于我们的重建任务来说，Zgives总的来说是一个比Z更好的模型，因为它们由不同数量的参数来描述。如上所述，为了完成我们的模型比较练习，我们需要依赖一个能够评估a4/20给定数据集模型相对质量的测试。

使用道具举报

10楼

何人来此

发表于 2022-6-24 08:24:13 |只看作者 |坛友微信交流群

我们选择Akaike信息标准，该标准使用以下AIC=2k作为其得分函数-2log^L，其中k是估计参数的数量，而^li是模型的似然函数的最大值。对于40个数据点的情况，我们最终得出AICZ=130，AICZ=950，当4000Q与两个模型相同时，AICZ=1,15×10，AICZ=2.11×10。多时间序列在本节中，我们继续介绍上述方法在多变量情况下的应用。让我们考虑anN×Tempirical data matrixw，其中行已重新缩放为零平均值，因此Wit>0（Wit<0）将表明第i个变量的时间值高于（低于）其经验平均值。同样，在不失一般性的情况下，让我们假设∈ R6=0，thatWit=0表示缺少数据。为了以后的方便，让我们定义±=Θ（±W）和W±=±WΘ（±W）（我们将在经验集上测量的相应量表示为±和W±），并让我们约束系综以保留以下可观测值的值：o正值（高于平均值）和负值（低于平均值）的数量n±i=∑tA±it，缺失值的数量Ni=T-N+i-N-i记录每个时间序列（i=1，…，N）。o每个时间序列记录的累积正值和负值：S±i=∑tw±it（i=1，…，N）。o每次采样时记录的正值、负值和缺失值的数量：M±t=∑iA±it，Mt=N-M+t-M-t（t=1，…，t）。o每次采样时记录的累积正值和负值：R±t=∑iw±it（t=1，…，t）。请注意，上面列表中的第二个约束间接约束每个时间序列的平均值。如一般框架部分所述，我们从潜在的金融应用程序中选择了上述约束条件（事实上，我们将评估该套捕获金融数据时间序列行为的能力）。

使用道具举报

返回列表

12 3 4 下一页

发帖

本版微信群

加JingGuanBbs
拉您进交流群

手机版 |

意见反馈 |

帮助 |

新手入门 |

用户手册 |

友情链接 |

如有投资本站、合作意向或投放广告，请联系：13661292478（刘老师）

联系客服

邮箱：service@pinggu.org 投诉或不良信息处理：（010-68466864）

京ICP备16021002-2号京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明

[量化金融] 多元时间序列随机化的最大熵方法 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本版微信群

扫码加我拉你入群