楼主: 可人4
1407 20

[量化金融] 聚类金融时间序列:多长时间足够? [推广有奖]

  • 0关注
  • 2粉丝

会员

学术权威

76%

还不是VIP/贵宾

-

威望
10
论坛币
15 个
通用积分
49.0443
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
24465 点
帖子
4070
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
可人4 在职认证  发表于 2022-5-11 01:04:04 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Clustering Financial Time Series: How Long is Enough?》
---
作者:
Gautier Marti, S\\\'ebastien Andler, Frank Nielsen, Philippe Donnat
---
最新提交年份:
2016
---
英文摘要:
  Researchers have used from 30 days to several years of daily returns as source data for clustering financial time series based on their correlations. This paper sets up a statistical framework to study the validity of such practices. We first show that clustering correlated random variables from their observed values is statistically consistent. Then, we also give a first empirical answer to the much debated question: How long should the time series be? If too short, the clusters found can be spurious; if too long, dynamics can be smoothed out.
---
中文摘要:
研究人员利用30天到几年的每日收益率作为源数据,根据它们的相关性对金融时间序列进行聚类。本文建立了一个统计框架来研究这种做法的有效性。我们首先表明,从观测值中聚类相关随机变量在统计学上是一致的。然后,我们也给出了一个备受争议的问题的第一个实证答案:时间序列应该是多长?如果太短,发现的簇可能是虚假的;如果时间太长,动态可以被平滑。
---
分类信息:

一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--
一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--

---
PDF下载:
--> Clustering_Financial_Time_Series:_How_Long_is_Enough?.pdf (447.28 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:金融时间序列 时间序列 Quantitative Econophysics correlations

沙发
nandehutu2022 在职认证  发表于 2022-5-11 01:04:09
聚类金融时间序列:多长时间足够?Gautier MartiHellebore Capital LtdEcole PolytechniqueS’ebastien and Lerens de LyonHellebore Capital LtdFrank NielsenEcole PolytechniqueLIX-UMR 7161 Philippe DonnatHellebore Capital LTDmitchelin House,Londona摘要研究人员使用30天到几天的每日收益作为源数据,根据其相关性对金融时间序列进行聚类。本文建立了一个统计框架来研究这种做法的有效性。我们首先表明,从概率值中聚类相关随机变量在统计上是一致的。然后,我们也给出了一个模糊问题的第一个实证答案:时间序列应该是多长?如果太短,发现的簇可能是虚假的;如果时间太长,动态可以被平滑。1简介聚类可以非正式地描述为在子集(也称为簇)中对对象进行分组的任务,以使同一簇中的对象比不同簇中的对象更相似。由于聚类任务很难形式化[Kleinberg,2003],因此设计一种在任何情况下都能完美解决它的聚类算法似乎有些牵强。然而,在对数据进行强大的数学假设的情况下,如统计一致性,即更多的数据意味着更高的准确性,并且在有限的范围内是一个完美的解决方案,已经证明:从Hartigan的单连锁证明[Hartigan,1981]和Pollard的k-均值一致性证明[Pollard等人,1981]到最近的工作,如光谱聚类的一致性[Von Luxburg等人,2008],或修改的k-均值[Terada,2013;Terada,2014]。这些研究论文假设,洪水点是从维度T固定的潜在概率分布中独立采样的。集群可以被视为高密度区域。

藤椅
nandehutu2022 在职认证  发表于 2022-5-11 01:04:14
它们表明,在大样本极限下,N→ ∞, 由该算法构造的聚类序列收敛到整个底层空间的聚类。当我们考虑时间序列的聚类时,另一个渐近性很重要:N固定和T→ ∞.簇收集在时间上表现相似的对象。据我们所知,很少有研究人员研究过这种渐近性:[Borysov等人,2014]表明,当维度T增长到从二维高斯分布N(u,σIT)和N(u,σIT)的混合物中正确收集N=N+m个观测值时,三种分层聚类算法是一致的。[Ryabko,2010;Khaleghi等人,2012]根据聚类过程的分布证明了k-均值的一致性。在这项工作中,受金融时间序列聚类的推动,我们将根据随机变量的概率相关性,从它们的T观测值中考虑聚类N个随机变量的一致性。对于金融应用,在进一步处理(如投资组合选择)之前,聚类通常被用作辅助块[Tola等人,2008]。在成为实践者的主流方法之前,必须提供理论保证,确保该方法是可靠的。在这项工作中,我们首先表明,聚类方法在理论上是有效的,但在处理有限长度的时间序列时,应采取额外措施:收敛速度取决于许多因素(基本相关结构、分类间的分离、基本收益分布)和实施选择(相关系数、聚类算法)。由于金融时间序列被认为仅在短期内具有近似系统性,因此需要大量样本来恢复基础聚类的聚类方法在实践中不太可能有用,并且可能会产生误导。

板凳
nandehutu2022 在职认证  发表于 2022-5-11 01:04:18
第5节,我们在模拟的时间序列上说明了几种聚类方法获得的经验收敛率。符号oX,XNunivariate random variablesoXtiis变量Xi的t观测oX(t)iis Xi的t排序观测ofx是X的累积分布函数oρij=ρ(Xi,Xj)Xi之间的相关性,Xjodij=d(Xi,Xj)Xi之间的距离,Xjodij=d(Ci,Cj)群集之间的距离,CjoPk={C(k),…,C(k)lk}是X的一个分区,XNoC(k)(Xi)表示分区Pkok∑k中的Xi的簇∞= maxij∑ijoX=Op(k)表示X/k是随机有界的,即。ε > 0, M>0,P(|X/k |>M)<ε2.层次相关块模型2。1关于金融时间序列的程式化事实自从[Mantegna,1999]的开创性工作以来,已经针对不同的市场(例如股票、外汇、信用违约掉期[Marti等人,2015])多次验证了交易资产的价格-时间序列具有层次关联结构。另一个众所周知的程式化事实是日常资产回报的非高斯性[Cont,2001]。这些经验特性推动了第2.2节中描述的替代相关系数的使用,以及第2.3.2.2节中提出的层次相关块模型(HCBM)的定义依赖性和相关系数最常见的相关系数是由ρ(X,Y)=E[XY]定义的皮尔逊相关系数-E[X]E[Y]pE[X]- E[X]pE[Y]- E[Y](1)可以通过^ρ(X,Y)=PTt=1(Xt)来估计-十) (Yt)- Y)qPTt=1Xt- 十、qPTt=1Yt- Y(2) 其中X=TPTt=1x是X的经验平均值。该系数存在几个缺点:它只测量两个变量之间的线性关系;它不是稳健的音调,如果其中一个变量的分布具有有限的秒矩,则可能无法确定。

报纸
何人来此 在职认证  发表于 2022-5-11 01:04:22
更稳健的相关系数是基于copula的依赖性度量,如Spearman的ρs(X,Y)=12ZZC(u,v)dudv- 3(3)=12 E[FX(X),FY(Y)]- 3(4)=ρ(FX(X),FY(Y))(5)及其统计估计^ρS(X,Y)=1-T(T- 1) TXt=1X(t)- Y(t). (6) 这些相关系数对噪声具有鲁棒性(因为rankstatistics将异常值标准化),对随机变量的单调变换具有不变性(因为基于copula的度量得益于概率积分变换fx(X))~ 2.3 HCBM模型我们假设N个单变量随机变量x,Xn遵循分层相关块模型(HCBM)。该模型由具有分层块结构的相关矩阵组成[Balakrishnan等人,2011],[Krishnamurthy等人,2012]。每个块对应一个我们想要用聚类算法恢复的相关聚类。在图1中,我们显示了HCBM的相关矩阵。请注意,在实践中,人们并没有观察到左图中显示的分层块对角结构,而是观察到一个与右图中显示的相似的相关矩阵,该矩阵与左图中的相关矩阵相同,直到数据的排列。HCBM定义了一组嵌套分区sp={P P . . .  Ph}对于一些h∈ [1,N],其中Pis是平凡分区,分区Pk={C(k),…,C(k)lk},和flki=1C(k)i={X,…,XN}。所有人1≤ K≤ h、 我们定义ρ和ρk,对于所有1≤ i、 j≤ N、 我们有ρk≤ ρij≤ ρkwhen C(k)(Xi)=C(k)(Xj)和C(k+1)(Xi)6=C(k+1)(Xj),即ρ和ρ分别是深度k处分区pk中所有簇sc(k)内的最小和最大相关性。为了有一个适当的相关性层次,我们必须对所有k有ρk<ρk+1。

地板
能者818 在职认证  发表于 2022-5-11 01:04:27
根据上下文,它可以是Spearman或Pearsoncorrelation matrix。图1:(左)层次相关块模型;(右)观察到的相关矩阵(在HCBM之后)与左矩阵相同,直到数据的排列,而不丧失一般性,为了便于演示,我们将考虑具有K个sizen块的一级HCBM,nkpki=1ni=N。我们稍后将解释如何将结果扩展到一般的HCBM。我们还考虑关联距离矩阵d,其中dij=1-ρij。实际上,聚类方法应用于距离矩阵d的统计估计,即^dij=dij+ij,在哪里这些噪声来自于相关性的统计估计。3.聚类方法3。1有趣的算法聚类数据的文献中存在许多范例。在这项工作中,我们只考虑硬(与软)聚类方法,即生成数据分区的算法(与将多个聚类分配给给定数据点的方法相反)。在硬聚类家族中,我们可以将这些算法分类为分层聚类方法(生成数据的嵌套分区)和fl-at-clustering方法(生成单个分区),例如k-means。我们将考虑进一步细分层次聚类的有限Lance Williams家族,因为许多流行算法,如单连锁、完全连锁、平均连锁(UPGMA)、McQuitty连锁(WPGMA)、中值连锁(WPGMC)、质心连锁(UPGMC)和Ward方法都是该家族的成员(参见表1[Murtagh and Contreras,2012])。这将使我们能够更简洁、统一地处理这些算法的一致性证明。

7
能者818 在职认证  发表于 2022-5-11 01:04:30
最近设计的有趣的层次聚集聚类算法,如Hausdorflinkage[Basalto等人,2007]和Minimax Linkage[Ao等人,2005]不属于这个家族[Bien和Tibshirani,],但它们的链接函数具有方便的聚类可分性。表1:许多著名的分层凝聚聚类算法都是Lance Williams家族的成员,即聚类之间的距离可以写为:D(Ci∪Cj,Ck)=αiDik+αjDjk+βDij+γ| Dik-Djk |αiβγ单个1/20-1/2完整的1/2 0 1/2平均值|-|Ci | | Cj |(| Ci |+| Cj |)Ward | Ci |+| Ck | Ci |+| Cj |+| Ck|-|Ck | | Ci |+| Cj |+| Ck | 3.2聚类的可分性条件在我们的上下文中,我们想要聚类的点之间的距离是随机的,由估计的相关性确定。然而,通过定义HCBM,每个点xibelong在给定深度k处正好是一个簇C(k)(Xi),我们想知道在距离矩阵的哪个条件下,我们将找到由Pk定义的正确簇。我们称这些条件为可分性条件。点X的可分性条件,xn是这些点的距离矩阵上的一个条件,如果我们应用一个以距离矩阵为输入的聚类过程,那么该算法将产生正确的聚类Pk={C(k),…,C(k)lk}。例如,对于{X,X,X}如果我们在一级二块HCBM中有C(X)=C(X)6=C(X),那么可分离条件是d1,2<d1,3和d1,2<d2,3。可分性条件是确定性的,取决于用于聚类的算法。它们在某种意义上是通用的,对于满足条件的任何一组点,算法都会将它们分成正确的簇。

8
大多数88 在职认证  发表于 2022-5-11 01:04:34
在LanceWilliams算法框架中[Chen和Van Ness,1996],它们与算法的“空间守恒”特性密切相关,尤其是在聚类过程中,聚类之间的距离变化方式。空间守恒算法在[Chen and Van Ness,1996]中,作者定义了什么是半空间守恒算法。定义1(半空间守恒算法)。对于所有簇Ci、Cj和Ck、D(Ci),算法都是半空间守恒的∪ Cj,Ck)∈ [min(Dik,Djk),max(Dik,Djk)]在我们研究的Lance Williams算法中,单一、完全、平均和McQuitty算法是半空间守恒的。尽管Chen和Van Ness只考虑了Lance Williams算法,但空间守恒算法的定义对于任何凝聚层次算法都是有用的。半空间守恒性质的另一种表述是:定义2(空间守恒算法)。链接聚集层次算法是空间守恒的ifDij∈貂皮∈Ci,y∈Cjd(x,y),maxx∈Ci,y∈Cjd(x,y).这样的算法不会在点聚集时“扭曲”空间,从而更容易获得充分的可分性条件。对于这些算法,可分性条件不依赖于簇的大小。以下两个命题很容易验证。提议1。半节省空间的兰斯·威廉姆斯·萨尔戈利斯是节省空间的。提议2。极小极大连锁和豪斯道夫连锁是空间守恒的。对于空间守恒算法,我们现在可以在距离矩阵上声明一个充分的可分性条件。提议3。

9
nandehutu2022 在职认证  发表于 2022-5-11 01:04:37
以下条件是空间守恒算法的可分性条件:max1≤i、 j≤NC(i)=C(j)d(Xi,Xj)<min1≤i、 j≤NC(i)6=C(j)d(Xi,Xj)(S1)在同一个簇内的任意两点上取最大距离(intra),在不同簇内的任意两点上取最小距离(inter)。证据在聚类算法的s步之后,考虑簇之间距离的集合{dsij}(因此{dij}是点之间距离的初始集合)。表示{dsinter}(resp.{dsintra})在步骤中属于不同簇(resp.相同簇)的子簇之间的距离集。如果可分离性条件满足,则我们有以下不等式:min dintra≤ 最大直径<最小直径≤ max dinter(S2)那么可分性条件意味着对所有步骤s验证可分性条件S2,因为在每一步之后,更新的内部距离位于前一步的内部距离的凸包中,对间隔也是如此。此外,由于S2在每一步之后都会被验证,因此该算法从不将来自不同簇的点连接起来,因此需要进行相应的定位。Ward算法Ward算法是一种空间扩展的Lance Williams算法:D(Ci∪ Cj,Ck)>max(Dik,Djk)。这是一个更复杂的情况,因为在max dinter<min dintra的条件下,结构min dinter<max dinter<min dintra<max dintra不一定被保存。未聚集的点会远离聚集点。离群值只会聚集在最末端,最终会彼此靠近,远离聚集点。这可能会导致错误的群集。因此,病房的代理可分性条件需要加强,并考虑空间的扭曲。

10
大多数88 在职认证  发表于 2022-5-11 01:04:40
由于失真取决于算法需要的步数,因此可分离性条件取决于簇的大小。命题4(病房可分性条件)。Ward的可分性条件为:n[max dintra- min dintra]<[min dinter- min dintra]其中n=maxini是最大集群的大小。证据设A和B分别是大小为A和B的N个点的两个子集。然后d(A,B)=aba+BabXi公司∈Aj∈Bdij-阿西∈艾岛∈再见-bXj∈北京∈Bdjj是Ward算法的链接函数。为了确保Ward算法永远不会合并错误的子集,对于同一簇中的任何集合A和B,以及不同簇中的集合A,我们有:D(A,B)<D(A,B)。自(D(A,B)≤ n(麦克斯·丁特拉)- min dintra)+min dintra- 1D(A,B)≥ (敏丁特)- max dintra)+max dintra- 1我们得到条件:n(max dintra- min dintra)<min dinter- min dintra。k-均值k-均值算法不是链接算法。对于k-means算法,我们需要一个可分离性条件,以确保初始化足够好,使算法能够找到分区。在[Ryabko,2010](Theorem1)中,作者证明了一步farthestpoint初始化k-均值[Katsavounidis等人,1994]与聚类过程的分布距离的一致性。命题3的可分性条件S1对于k-均值是足够的。4著名聚类算法的一致性在上一节中,我们已经确定了点的配置,这样聚类算法将找到正确的分区。现在,一致性的证明依赖于证明这些配置是可能的。事实上,我们的分数在这些配置中下降的概率为1,即T→ ∞.我们对算法一致性的精确定义如下:定义3(聚类算法的一致性)。设(Xt,…,XtN),t=1。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-31 18:47