基于波动变化点的动态时间序列聚类 - 第2页 - 外文文献专区

11楼

发表于 2022-6-24 05:53:21

反过来，可以将其插入递归（4）或第2.3节中讨论的近似值中，以评估相异性度量。考虑一系列三重参数（un、αn、σn）n∈Nand假设：yt=uN（t）+αN（t）yt-1+σN（t）t、（10）其中(t） t型≥1是i.i.d.编号（0，1）。因此，（un，αn，σn）参数化了第n个和（n+1）个变化点之间数据的条件联合分布，即（yTn+1，…，yTn+1），给定yTn。我们假设以下先验独立性：序列（un，αn，σn）n≥0和序列（Tn）n≥0是独立的，三元组（un，αn，σn）n≥0在n上是独立的。可以表明，由于这些独立性和（10），p（yt+1 |τt+1=s，y0:t）=p（yt+1 |τt+1=s，ys:t），（11）p（un（t），αn（t），σn（t），τt=s，y0:t）=p（un（t），αn（t），σn（t）|τt=s，ys:t）。

12楼

能者818

发表于 2022-6-24 05:53:25

（12）对这些恒等式的直观解释是，以最新变化点的时间为条件，严格在s之前的数据与以下内容无关：根据（11）预测下一个数据点，以及根据（12）预测uN（t）、αN（t）、σN（t），即与最新变化点相关的参数。为了得到p（yt+1 |τt+1=s，ys:t）的闭合表达式，我们在每个参数三元组上设置了一个零均值正态逆伽玛先验分布：p（un，αn，σn）=2π| V | 1/2baΓ（a）σna+2经验-2b+βTnV-1βn2σn, （13）式中，βn：=[unαn]T，V：=diag（δ，δ），a，b，δ，δ是超参数，这些参数是跨s n的常见参数。以下命题给出了所需的p（yt+1 |τt+1=s，ys：t）表达式，以及参数βN（t）和σN（t）的边缘后验密度，条件是最近变化点的时间。提案1。p（yt+1 |τt+1=s，ys：t）=St2as、t、ht+1ws、t、bs、TA、t（1+ht+1Vs、thTt+1）, （14） p（βN（t）|τt=s，ys：t）=St2as、t、ws、t、bs、TA、TV、t, （15） p（σN（t）|τt=s，ys:t）=IG（as，t，bs，t），（16）式中，ws，t：=Vs，tHTs，tys+1:t，（17）Vs，t：=（V-1+HTs、tHs、t）-1，（18）as，t：=a+t- s、（19）bs，t：=b+（kys+1：tk- wTs，电视-1s，tws，t），（20）Hs，t：=[hTt···hTs+1]t，ht：=[1 yt-1] ，和ys+1:t≡ [年初至今-1···ys+1]T.校对草图。（10）中的注释，yτt+1:t=年初至今。。。yτt+1= Hτt，tβN（t）+σN（t）t、。。。τt+1.因此，（14）-（16）中的表达式可以通过调节τt+1=s或τt=s获得，然后在正态逆伽马先验下应用贝叶斯线性回归的标准结果，参见示例【Murphy，2012，第7.6.3节】。除第2.3节中的考虑事项外，重要的是要注意，（ws，t）t>s，（Vs，t）t>s，（as，t）t>s，（bs，t）t>可以递归方式计算，以便计算公式p（yt+1 |τt+1，y0:t），p（yt+2 |τt+2，y0:t+1）中每个项的成本不会随t的增加而增加。下面的引理给出了详细信息。引理2。

13楼

kedemingshi

发表于 2022-6-24 05:53:28

对于固定的≥ 0，Vs，s+1=（V-1+hTs+1hs+1）-1，Vs，t+1=Vs，t-Vs、thTt+1ht+1Vs、t1+ht+1Vs、thTt+1、~ys、s+1=ys+1hTs+1、~ys、t+1=~ys、t+yt+1hTt+1、kys+1:s+1k=ys+1、kys+1:t+1k=kys+1：tk+yt+1、as、s+1=a+、as、t+1=as、t+≥ s、 ws，t=Vs，tys，t.Proof。Vs，t+1的表达式从v开始-1s，t+1=V+HTs，t+1Hs，t+1=V+HTs，tHs，t+hTt+1ht+1=V-1s、t+hTt+1ht+1和谢尔曼-莫里森公式。其他的表达都很直截了当。2.5对GARCHIt的解释和关系已得到广泛认可，每天或更高频率的返回数据通常表现出某些风格化特征：1。长期平均值或中位数接近于零，且尾部较重；2、收益率的长期自相关较小或随滞后长度衰减较快，但绝对或平方收益率的自相关衰减较慢；3、随时间变化的波动性。为了在这种情况下解释变化点模型，考虑GARCH（1，1）：yt=tt、（21）t=c+cyt-1+ρt-1，（22）其中(t） t型≥0是白噪声过程。这可能是最广泛使用的时间序列模型，它符合上述风格化特征：1。在Bollerslev（1986）的原始陈述中(t） t型≥0被视为i.i.d.标准高斯分布，因此ytunder（21）的边缘分布是零均值高斯分布的尺度混合。为了进一步解释厚尾现象，Bollerslev（1987）提出了以零为中心的t分布(t） t型≥0，单位刻度参数；2、由于(t） t型≥0和它们共同分布的中心位于0，可以很容易地看到（yt）t的自相关≥0（假设存在）为零。GARCH（1，1）的平方回归序列是一个ARMA过程【Andersen et al.，2009，Thm 7，p.61】，hencemay表现出非平凡的自相关；3.

14楼

大多数88

发表于 2022-6-24 05:53:31

时间相关波动率通过“条件方差”方程（22）建模。这些性质表现在与GARCH（1，1）相关的预测分布p（yt+1 | y0:t）中；如果确实如此(t） t型≥0是单位标度和以零为中心的学生t变量，具有2a自由度，则：p（yt+1 | y0：t）=St（2a，0，t+1），（23），其中通过写出（22），t+1=ctXs=0ρs+ctXs=0ρsyt-s+ρt+1。（24）现在让我们解释一下与（14）的联系。为了便于说明，假设参数（un）n≥0从变化点模型中省略，因为（10）简化为：yt=αN（t）yt-1+σN（t）t、（25）并假设每个参数对上的先验知识（αn，σn）就是这两个参数在（13）下的边际先验知识。提案3。省略（un）n≥0在（25）的意义上，导致（14）的以下表达式：p（yt+1 |τt+1=s，ys：t）=St（2a+t- s、 αs，tyt，σs，t），（26）式中，αs，t：=Pt-1i=syiyi+1δ-1+Pt-1i=syi，（27）^σs，t：=“（1- αs，t）Pt-1i=syi2a+t- s+2b+yt- ys公司- δ-12a+t- s#1+ytδ-1+Pt-1i=syi！（28）在给出证明之前，让我们比较预测密度（26）和（23）。o考虑（24）和（27）-（28）中的参数数量。前者涉及a、c、c、ρ和。后者涉及a、b、δ，但考虑到无信息的先验极限δ，这些参数可以有效地去除→ ∞, a、 b类→ 0，其中p（yt+1 |τt+1=s，ys：t）仍然被定义为概率密度，假设某些i∈ {s，…t- 1}. 相比之下，似乎不存在一个先验分布，在该分布下，我们可以分析性地积分出GARCH（1，1）中的a、c、c、ρ，因此我们必须估计这些参数或对其进行数值积分，这将使变化点模型的拟合复杂化关于上述回报的程式化特征，（23）中p（yt+1 | y0:t）的中位数明显为零。

15楼

nandehutu2022

发表于 2022-6-24 05:53:34

如果ys:texhibits小滞后一个自相关，在这个意义上，^αs，t≈ 0，则（26）的主题词也大约为零。然而，如果该自相关性非零，则将在（26）中捕捉到这一点，无论是在^αs，tytand到^σs，t的居中。因此，变更点模型适应但不坚持样式化特征1）和样式化特征2中返回的零自相关；该模型足够灵活，可以解释数据的变化，这些变化无法很好地用动态波动性建模，例如短期趋势和短期相关回报。平方标度参数t+1in（24）是之前平方收益（ys）的指数加权平均值≤t、这就是允许GARCH（1,1）根据风格化特征2捕捉平方收益的自动相关性的原因。（26）中的预测分布以略微不同的方式实现了这一点：σs，t表示四次回报的均匀加权平均值，（ys，…，yt-1），其中s是（26）中条件作用中出现的最新变化点的时间。因此，变化点模型可以表示平方收益过程中的记忆，同时避免了GARCH（1,1）中参数ρ的需要。最后，考虑到风格化特征3），显然变化点模型适应了从一个变化点到下一个变化点的变化波动性（23）中的自由度恒定为2a；在（26）中，自由度为2a+t- s、因此，随着自最近变化点t起的时间增加- s、增长。根据（25），变化点模型假设变化点之间的波动率是恒定的，自由度的增加反映了自最近变化点以来的数据积累，假设已知或我们正在对其进行调节。

16楼

mingdashike22

发表于 2022-6-24 05:53:37

将最新变化点的时间积分得出以下等式：p（yt+1 | y0:t）=tXs=0p（yt+1 |τt+1=s，ys:t）p（τt+1=s | y0:t），p（τt+1=s | y0:t）=（Pt-1u=0克（t-u）-G（t-1.-u） 1个-G（t-1.-u） πt（u），s=t，1-G（t-s） 1个-G（t-1.-s） πt（s），s∈ {0，…，t- 1}.因此，对于变化点模型，预测密度p（yt+1 | y0:t）是形式（26）的密度的混合物，即具有不同自由度、中心和标度参数的student-t分布，其中混合分布源自后变化点分布πt。参数后验p（βN（t）| y0:t）和p（σN（t）| y0:t），也就是说，随着最新变化点时间的整合，具有类似的混合表示，细节留给读者。o重新引入参数（un）n≥0in（10）允许对非零中值回报进行建模，这可能需要在短期内或适应短期市场趋势，但在（21）-（21）中不适用。因此，变化点模型也是灵活的：如果数据表明主题/平均值为零，根据样式化特征1），或者不是，那么这将反映在预测分布中（23）。综上所述，第2.4节中描述的模型具有方便的特性，即参数（un，αn，σn）n∈NCA可以通过分析进行集成，从而使其与第2.1节中的通用变更点模型和推理递归相连接。其预测分布与thoseof GARCH（1,1）密切相关，并符合收益率的标准程式化特征，但其灵活性足以模拟短期自相关和趋势。命题3的证明。

17楼

大多数88

发表于 2022-6-24 05:53:40

省略（un）n≥0简化结果：βn=αn，Hs，t=[yt-1···ys]T，ht=yt-1和ws、tand-Vs、tbecome标量，尤其是：ws、t=Vs、ttXi=s+1yiyiyi-1，Vs，t=（δ-1+t-1Xi=syi）-1，as，t=a+t- s、 bs，t=b+tXi=s+1yi-Pti=s+1亿-1.δ-1+Pt-1i=syi.转向（14）的参数，我们发现简化：ht+1ws，t=ytPti=s+1yiyi-1δ-1+Pt-1i=syi、bs、tas、t（1+ht+1Vs，thTt+1yt+1）=b+Pti=s+1yi-（Pti=s+1yiyi-1)δ-1+Pt-1i=syia+t-s1+ytδ-1+Pt-1i=syi！。稍微重新安排一下就可以完成证明。3标准普尔5003.1数据组成部分的数值结果和参数设置所有数值实验均基于1998年至2013年年中连续构成标准普尔500指数的股票每日价格数据集。数据集取自https://quantquote.com/historical-stock-data.根据来源，这些数据被拆分/股息调整。以下提及的所有收益均为每日收盘日志收益，即yt=log（t价格）- 对数（t价格- 1).当应用第2.1节中的变更点模型时，每个变更点时间之间的优先级，例如，Tn- 田纳西州-1，被认为是一个几何分布，所以它的支撑是{1，2，…}而不是{0，1，…}。几何分布参数设置为0.02。先验分布（13）中的超参数取a=b=5×10-4，对应于σn’s上相当无信息的先验；和δ=10和δ=0.02，分别对应于un上的非信息先验和αn上的先验，其在[-1, 1]. 第2.3节中描述的近似方法是在支撑点数量n取为100的情况下实施的。3.2将变化点模型应用于amzn本节的目的是说明应用于单个时间序列的变化点模型的输出。图1中的顶部曲线图显示了AMZN的回报。

18楼

可人4

发表于 2022-6-24 05:53:43

第二个图显示了自最大后验概率（MAP）最近变化点以来的交易日数。精确地说，t是1998年1月1日数据集开始的时间，单位为交易日，τMAPt：=arg maxsπt（s）。然后该图显示t- τMAPtagainst对应于t的日历日期。第三和第四个图显示了p（uN（t）|τt=τMAPt，yτMAPt:t）和p（αN（t）|τt=τMAPt，yτMAPt:t）的平均值和95%可信区域，即（15）的两个边缘加上τmaptp。这些分布的解释是，它们是与MAP最近变化点相关的参数的后验分布。图1中的底图是通过找到p的模式和95%可信区域（σN（t）|τt=τMAPt，yτMAPt:t）来构建的，即（16）插入τmaptp，然后通过x 7映射→log x，给出logσN（t）的对应点估计和可信区间。年初至今ttN（t）N（t） logN（t）图1：应用于AMZN的变化点模型。自上而下：调整每日结账日志返回；自映射最近变化点以来的交易日数；uN（t）的后验平均值（蓝色）和95%可信区间（红色），以地图上最近的变化点为条件；αN（t）的后验平均值（蓝色）和95%可信区间（红色），以MAP最新变化点为条件；对数σN（t）的后验模式（蓝色）和95%可信区间（红色）。为了说明关于超出简单点估计τMAPt的变化点时间的推断：=arg maxsπt（s），图2显示了2007年4月至2009年7月的收益率快照，以及对应于2008年9月28日、2009年2月23日、2009年5月5日、2009年7月16日的变化点分布πt。2008年9月28日。

19楼

何人来此

发表于 2022-6-24 05:53:46

i、就在市场崩盘之前，变化点分布（顶部第二个图）显示了近期变化的少量证据，但大多数概率与2007年7月24日有关，当时股价在公布优于预期的第二季度业绩后飙升。第三幅图显示了t的变化点分布，对应于2009年2月23日，它的大部分质量都在2008年9月的市场崩盘前后。在第四个图中，对应于2009年5月5日，分布中的多种模式可以解释为关于最新变化点的相互竞争的假设：2008年9月的市场崩盘就是其中之一，随后是2008年12月和2009年1-3月的危机。下图显示了2009年3月底前后波动性较低的时期的变化。图2：应用于AMZN的变更点模型。与2008年9月29日、2009年2月23日、2009年5月5日、2009年7月16日相对应的最近变化点πt随时间的后验分布。水平轴上的红线表示分布的支撑范围。图3中的顶部曲线图显示了每一步超前后验预测分布p（yt+1 |τt+1=τMAPt，yτMAPt:t）的回报率以及95%可信区域，即（3）加入τmaptp。下图显示了这些预测可信区域被推到了价格上。图3：应用于AMZN的变更点模型。蓝色图显示调整后的每日收盘日志回报（顶部）和价格（底部）。红色阴影表示后验预测95%可信区间条件图上最近的变化点。

20楼

大多数88

发表于 2022-6-24 05:53:49

定义见正文。3.3层次聚类图4显示了瓦塞尔坦距离W（πit，πjt）的相异矩阵，如（9）中所示，80年代和500年代前成分的相异矩阵，按t的字母顺序排列，对应于2009年7月16日。之所以只考虑80种成分，是为了保持以下视觉结果简单易读。选择2009年7月16日作为例证，因为该日期晚于全球金融危机和随后复苏的开始日期。图4:2009年7月16日t对应的标准普尔500指数前80个成分的相异矩阵。虽然相异矩阵似乎显示出丰富的结构，但不容易直接解释。这就是层次聚类的由来：图5显示了使用平均链接方法进行聚集聚类的结果，该方法使用Seaborn统计数据可视化库在Python中实现，请参见https://seaborn.pydata.org和https://SciPy.org有关下划线链接方法的详细信息。该聚类方法首先初始化单独集群中的每个股票，然后依次组合相邻的集群并重新计算集群之间的距离。输出是一个树状图，如图5右侧所示，并对相异矩阵的行/列重新排序，以检查树状图的结构。一旦从该树状图中识别出股票集群，就可以询问它们各自的变化点分布。为了说明这一想法，图5中突出显示了三个集群。

[量化金融] 基于波动变化点的动态时间序列聚类 [推广有奖]

浏览过的帖子

浏览过的版块

本版微信群