楼主: 可人4
1460 24

[量化金融] 基于波动变化点的动态时间序列聚类 [推广有奖]

11
mingdashike22 在职认证  发表于 2022-6-24 05:53:21
反过来,可以将其插入递归(4)或第2.3节中讨论的近似值中,以评估相异性度量。考虑一系列三重参数(un、αn、σn)n∈Nand假设:yt=uN(t)+αN(t)yt-1+σN(t)t、 (10)其中(t) t型≥1是i.i.d.编号(0,1)。因此,(un,αn,σn)参数化了第n个和(n+1)个变化点之间数据的条件联合分布,即(yTn+1,…,yTn+1),给定yTn。我们假设以下先验独立性:序列(un,αn,σn)n≥0和序列(Tn)n≥0是独立的,三元组(un,αn,σn)n≥0在n上是独立的。可以表明,由于这些独立性和(10),p(yt+1 |τt+1=s,y0:t)=p(yt+1 |τt+1=s,ys:t),(11)p(un(t),αn(t),σn(t),τt=s,y0:t)=p(un(t),αn(t),σn(t)|τt=s,ys:t)。

12
能者818 在职认证  发表于 2022-6-24 05:53:25
(12) 对这些恒等式的直观解释是,以最新变化点的时间为条件,严格在s之前的数据与以下内容无关:根据(11)预测下一个数据点,以及根据(12)预测uN(t)、αN(t)、σN(t),即与最新变化点相关的参数。为了得到p(yt+1 |τt+1=s,ys:t)的闭合表达式,我们在每个参数三元组上设置了一个零均值正态逆伽玛先验分布:p(un,αn,σn)=2π| V | 1/2baΓ(a)σna+2经验-2b+βTnV-1βn2σn, (13) 式中,βn:=[unαn]T,V:=diag(δ,δ),a,b,δ,δ是超参数,这些参数是跨s n的常见参数。以下命题给出了所需的p(yt+1 |τt+1=s,ys:t)表达式,以及参数βN(t)和σN(t)的边缘后验密度,条件是最近变化点的时间。提案1。p(yt+1 |τt+1=s,ys:t)=St2as、t、ht+1ws、t、bs、TA、t(1+ht+1Vs、thTt+1), (14) p(βN(t)|τt=s,ys:t)=St2as、t、ws、t、bs、TA、TV、t, (15) p(σN(t)|τt=s,ys:t)=IG(as,t,bs,t),(16)式中,ws,t:=Vs,tHTs,tys+1:t,(17)Vs,t:=(V-1+HTs、tHs、t)-1,(18)as,t:=a+t- s、 (19)bs,t:=b+(kys+1:tk- wTs,电视-1s,tws,t),(20)Hs,t:=[hTt···hTs+1]t,ht:=[1 yt-1] ,和ys+1:t≡ [年初至今-1···ys+1]T.校对草图。(10)中的注释,yτt+1:t=年初至今。。。yτt+1= Hτt,tβN(t)+σN(t)t、 。。。τt+1.因此,(14)-(16)中的表达式可以通过调节τt+1=s或τt=s获得,然后在正态逆伽马先验下应用贝叶斯线性回归的标准结果,参见示例【Murphy,2012,第7.6.3节】。除第2.3节中的考虑事项外,重要的是要注意,(ws,t)t>s,(Vs,t)t>s,(as,t)t>s,(bs,t)t>可以递归方式计算,以便计算公式p(yt+1 |τt+1,y0:t),p(yt+2 |τt+2,y0:t+1)中每个项的成本不会随t的增加而增加。下面的引理给出了详细信息。引理2。

13
kedemingshi 在职认证  发表于 2022-6-24 05:53:28
对于固定的≥ 0,Vs,s+1=(V-1+hTs+1hs+1)-1,Vs,t+1=Vs,t-Vs、thTt+1ht+1Vs、t1+ht+1Vs、thTt+1、~ys、s+1=ys+1hTs+1、~ys、t+1=~ys、t+yt+1hTt+1、kys+1:s+1k=ys+1、kys+1:t+1k=kys+1:tk+yt+1、as、s+1=a+、as、t+1=as、t+≥ s、 ws,t=Vs,tys,t.Proof。Vs,t+1的表达式从v开始-1s,t+1=V+HTs,t+1Hs,t+1=V+HTs,tHs,t+hTt+1ht+1=V-1s、t+hTt+1ht+1和谢尔曼-莫里森公式。其他的表达都很直截了当。2.5对GARCHIt的解释和关系已得到广泛认可,每天或更高频率的返回数据通常表现出某些风格化特征:1。长期平均值或中位数接近于零,且尾部较重;2、收益率的长期自相关较小或随滞后长度衰减较快,但绝对或平方收益率的自相关衰减较慢;3、随时间变化的波动性。为了在这种情况下解释变化点模型,考虑GARCH(1,1):yt=tt、 (21)t=c+cyt-1+ρt-1,(22)其中(t) t型≥0是白噪声过程。这可能是最广泛使用的时间序列模型,它符合上述风格化特征:1。在Bollerslev(1986)的原始陈述中(t) t型≥0被视为i.i.d.标准高斯分布,因此ytunder(21)的边缘分布是零均值高斯分布的尺度混合。为了进一步解释厚尾现象,Bollerslev(1987)提出了以零为中心的t分布(t) t型≥0,单位刻度参数;2、由于(t) t型≥0和它们共同分布的中心位于0,可以很容易地看到(yt)t的自相关≥0(假设存在)为零。GARCH(1,1)的平方回归序列是一个ARMA过程【Andersen et al.,2009,Thm 7,p.61】,hencemay表现出非平凡的自相关;3.

14
大多数88 在职认证  发表于 2022-6-24 05:53:31
时间相关波动率通过“条件方差”方程(22)建模。这些性质表现在与GARCH(1,1)相关的预测分布p(yt+1 | y0:t)中;如果确实如此(t) t型≥0是单位标度和以零为中心的学生t变量,具有2a自由度,则:p(yt+1 | y0:t)=St(2a,0,t+1),(23),其中通过写出(22),t+1=ctXs=0ρs+ctXs=0ρsyt-s+ρt+1。(24)现在让我们解释一下与(14)的联系。为了便于说明,假设参数(un)n≥0从变化点模型中省略,因为(10)简化为:yt=αN(t)yt-1+σN(t)t、 (25)并假设每个参数对上的先验知识(αn,σn)就是这两个参数在(13)下的边际先验知识。提案3。省略(un)n≥0在(25)的意义上,导致(14)的以下表达式:p(yt+1 |τt+1=s,ys:t)=St(2a+t- s、 αs,tyt,σs,t),(26)式中,αs,t:=Pt-1i=syiyi+1δ-1+Pt-1i=syi,(27)^σs,t:=“(1- αs,t)Pt-1i=syi2a+t- s+2b+yt- ys公司- δ-12a+t- s#1+ytδ-1+Pt-1i=syi!(28)在给出证明之前,让我们比较预测密度(26)和(23)。o考虑(24)和(27)-(28)中的参数数量。前者涉及a、c、c、ρ和。后者涉及a、b、δ,但考虑到无信息的先验极限δ,这些参数可以有效地去除→ ∞, a、 b类→ 0,其中p(yt+1 |τt+1=s,ys:t)仍然被定义为概率密度,假设某些i∈ {s,…t- 1}. 相比之下,似乎不存在一个先验分布,在该分布下,我们可以分析性地积分出GARCH(1,1)中的a、c、c、ρ,因此我们必须估计这些参数或对其进行数值积分,这将使变化点模型的拟合复杂化关于上述回报的程式化特征,(23)中p(yt+1 | y0:t)的中位数明显为零。

15
nandehutu2022 在职认证  发表于 2022-6-24 05:53:34
如果ys:texhibits小滞后一个自相关,在这个意义上,^αs,t≈ 0,则(26)的主题词也大约为零。然而,如果该自相关性非零,则将在(26)中捕捉到这一点,无论是在^αs,tytand到^σs,t的居中。因此,变更点模型适应但不坚持样式化特征1)和样式化特征2中返回的零自相关;该模型足够灵活,可以解释数据的变化,这些变化无法很好地用动态波动性建模,例如短期趋势和短期相关回报。平方标度参数t+1in(24)是之前平方收益(ys)的指数加权平均值≤t、 这就是允许GARCH(1,1)根据风格化特征2捕捉平方收益的自动相关性的原因。(26)中的预测分布以略微不同的方式实现了这一点:σs,t表示四次回报的均匀加权平均值,(ys,…,yt-1) ,其中s是(26)中条件作用中出现的最新变化点的时间。因此,变化点模型可以表示平方收益过程中的记忆,同时避免了GARCH(1,1)中参数ρ的需要。最后,考虑到风格化特征3),显然变化点模型适应了从一个变化点到下一个变化点的变化波动性(23)中的自由度恒定为2a;在(26)中,自由度为2a+t- s、 因此,随着自最近变化点t起的时间增加- s、 增长。根据(25),变化点模型假设变化点之间的波动率是恒定的,自由度的增加反映了自最近变化点以来的数据积累,假设已知或我们正在对其进行调节。

16
mingdashike22 在职认证  发表于 2022-6-24 05:53:37
将最新变化点的时间积分得出以下等式:p(yt+1 | y0:t)=tXs=0p(yt+1 |τt+1=s,ys:t)p(τt+1=s | y0:t),p(τt+1=s | y0:t)=(Pt-1u=0克(t-u)-G(t-1.-u) 1个-G(t-1.-u) πt(u),s=t,1-G(t-s) 1个-G(t-1.-s) πt(s),s∈ {0,…,t- 1}.因此,对于变化点模型,预测密度p(yt+1 | y0:t)是形式(26)的密度的混合物,即具有不同自由度、中心和标度参数的student-t分布,其中混合分布源自后变化点分布πt。参数后验p(βN(t)| y0:t)和p(σN(t)| y0:t),也就是说,随着最新变化点时间的整合,具有类似的混合表示,细节留给读者。o重新引入参数(un)n≥0in(10)允许对非零中值回报进行建模,这可能需要在短期内或适应短期市场趋势,但在(21)-(21)中不适用。因此,变化点模型也是灵活的:如果数据表明主题/平均值为零,根据样式化特征1),或者不是,那么这将反映在预测分布中(23)。综上所述,第2.4节中描述的模型具有方便的特性,即参数(un,αn,σn)n∈NCA可以通过分析进行集成,从而使其与第2.1节中的通用变更点模型和推理递归相连接。其预测分布与thoseof GARCH(1,1)密切相关,并符合收益率的标准程式化特征,但其灵活性足以模拟短期自相关和趋势。命题3的证明。

17
大多数88 在职认证  发表于 2022-6-24 05:53:40
省略(un)n≥0简化结果:βn=αn,Hs,t=[yt-1···ys]T,ht=yt-1和ws、tand-Vs、tbecome标量,尤其是:ws、t=Vs、ttXi=s+1yiyiyi-1,Vs,t=(δ-1+t-1Xi=syi)-1,as,t=a+t- s、 bs,t=b+tXi=s+1yi-Pti=s+1亿-1.δ-1+Pt-1i=syi.转向(14)的参数,我们发现简化:ht+1ws,t=ytPti=s+1yiyi-1δ-1+Pt-1i=syi、bs、tas、t(1+ht+1Vs,thTt+1yt+1)=b+Pti=s+1yi-(Pti=s+1yiyi-1)δ-1+Pt-1i=syia+t-s1+ytδ-1+Pt-1i=syi!。稍微重新安排一下就可以完成证明。3标准普尔5003.1数据组成部分的数值结果和参数设置所有数值实验均基于1998年至2013年年中连续构成标准普尔500指数的股票每日价格数据集。数据集取自https://quantquote.com/historical-stock-data.根据来源,这些数据被拆分/股息调整。以下提及的所有收益均为每日收盘日志收益,即yt=log(t价格)- 对数(t价格- 1).当应用第2.1节中的变更点模型时,每个变更点时间之间的优先级,例如,Tn- 田纳西州-1,被认为是一个几何分布,所以它的支撑是{1,2,…}而不是{0,1,…}。几何分布参数设置为0.02。先验分布(13)中的超参数取a=b=5×10-4,对应于σn’s上相当无信息的先验;和δ=10和δ=0.02,分别对应于un上的非信息先验和αn上的先验,其在[-1, 1]. 第2.3节中描述的近似方法是在支撑点数量n取为100的情况下实施的。3.2将变化点模型应用于amzn本节的目的是说明应用于单个时间序列的变化点模型的输出。图1中的顶部曲线图显示了AMZN的回报。

18
可人4 在职认证  发表于 2022-6-24 05:53:43
第二个图显示了自最大后验概率(MAP)最近变化点以来的交易日数。精确地说,t是1998年1月1日数据集开始的时间,单位为交易日,τMAPt:=arg maxsπt(s)。然后该图显示t- τMAPtagainst对应于t的日历日期。第三和第四个图显示了p(uN(t)|τt=τMAPt,yτMAPt:t)和p(αN(t)|τt=τMAPt,yτMAPt:t)的平均值和95%可信区域,即(15)的两个边缘加上τmaptp。这些分布的解释是,它们是与MAP最近变化点相关的参数的后验分布。图1中的底图是通过找到p的模式和95%可信区域(σN(t)|τt=τMAPt,yτMAPt:t)来构建的,即(16)插入τmaptp,然后通过x 7映射→log x,给出logσN(t)的对应点估计和可信区间。年初至今ttN(t)N(t)                logN(t)图1:应用于AMZN的变化点模型。自上而下:调整每日结账日志返回;自映射最近变化点以来的交易日数;uN(t)的后验平均值(蓝色)和95%可信区间(红色),以地图上最近的变化点为条件;αN(t)的后验平均值(蓝色)和95%可信区间(红色),以MAP最新变化点为条件;对数σN(t)的后验模式(蓝色)和95%可信区间(红色)。为了说明关于超出简单点估计τMAPt的变化点时间的推断:=arg maxsπt(s),图2显示了2007年4月至2009年7月的收益率快照,以及对应于2008年9月28日、2009年2月23日、2009年5月5日、2009年7月16日的变化点分布πt。2008年9月28日。

19
何人来此 在职认证  发表于 2022-6-24 05:53:46
i、 就在市场崩盘之前,变化点分布(顶部第二个图)显示了近期变化的少量证据,但大多数概率与2007年7月24日有关,当时股价在公布优于预期的第二季度业绩后飙升。第三幅图显示了t的变化点分布,对应于2009年2月23日,它的大部分质量都在2008年9月的市场崩盘前后。在第四个图中,对应于2009年5月5日,分布中的多种模式可以解释为关于最新变化点的相互竞争的假设:2008年9月的市场崩盘就是其中之一,随后是2008年12月和2009年1-3月的危机。下图显示了2009年3月底前后波动性较低的时期的变化。         图2:应用于AMZN的变更点模型。与2008年9月29日、2009年2月23日、2009年5月5日、2009年7月16日相对应的最近变化点πt随时间的后验分布。水平轴上的红线表示分布的支撑范围。图3中的顶部曲线图显示了每一步超前后验预测分布p(yt+1 |τt+1=τMAPt,yτMAPt:t)的回报率以及95%可信区域,即(3)加入τmaptp。下图显示了这些预测可信区域被推到了价格上。                图3:应用于AMZN的变更点模型。蓝色图显示调整后的每日收盘日志回报(顶部)和价格(底部)。红色阴影表示后验预测95%可信区间条件图上最近的变化点。

20
大多数88 在职认证  发表于 2022-6-24 05:53:49
定义见正文。3.3层次聚类图4显示了瓦塞尔坦距离W(πit,πjt)的相异矩阵,如(9)中所示,80年代和500年代前成分的相异矩阵,按t的字母顺序排列,对应于2009年7月16日。之所以只考虑80种成分,是为了保持以下视觉结果简单易读。选择2009年7月16日作为例证,因为该日期晚于全球金融危机和随后复苏的开始日期。图4:2009年7月16日t对应的标准普尔500指数前80个成分的相异矩阵。虽然相异矩阵似乎显示出丰富的结构,但不容易直接解释。这就是层次聚类的由来:图5显示了使用平均链接方法进行聚集聚类的结果,该方法使用Seaborn统计数据可视化库在Python中实现,请参见https://seaborn.pydata.org和https://SciPy.org有关下划线链接方法的详细信息。该聚类方法首先初始化单独集群中的每个股票,然后依次组合相邻的集群并重新计算集群之间的距离。输出是一个树状图,如图5右侧所示,并对相异矩阵的行/列重新排序,以检查树状图的结构。一旦从该树状图中识别出股票集群,就可以询问它们各自的变化点分布。为了说明这一想法,图5中突出显示了三个集群。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-3-11 17:43