楼主: 大多数88
1738 33

[量化金融] 关于金融时间序列聚类:对时间序列之间距离的需求 [推广有奖]

11
nandehutu2022 在职认证  发表于 2022-5-11 03:02:19
有趣的、最近设计的层次聚集聚类算法,如Hausdorff连锁[5]和Minimax连锁[2]不属于这个家族[6],但它们的连锁函数具有便于聚类分离的特性。表1。许多著名的分层凝聚聚类算法都是Lance Williams家族的成员,即聚类之间的距离可以写为:D(Ci∪ Cj,Ck)=αiDik+αjDjk+βDij+γ| Dik- Djk |[35]αiβγ单个1/20-1/2完整1/2 0 1/2平均值|-|Ci | | Cj |(| Ci |+| Cj |)Ward | Ci |+| Ck | Ci |+| Cj |+| Ck|-|Ck | Ci |+| Cj |+| Ck | 2.4聚类的可分性条件在我们的上下文中,我们想要聚类的点之间的距离是随机的,由估计的相关性确定。然而,通过定义HCBM,每个点xibelong到给定深度k处的一个簇C(k)(Xi),我们想知道在距离矩阵的哪个条件下,我们将找到由Pk定义的正确簇。我们称这些条件为可分性条件。点X的可分性条件,xn是这些点的距离矩阵上的一个条件,如果我们应用一个聚类过程,输入是距离矩阵,那么算法为所有k产生正确的聚类Pk={C(k),…,C(k)lk}。例如,对于{X,X,X},如果我们在一级二块HCBM中有C(X)=C(X)6=C(X),那么可分离条件是d1,2<d1,3和d1,2<d2,3。可分性条件是确定性的,取决于用于聚类的算法。它们是通用的,因为对于satOn聚类金融时间序列9确定条件的任何一组点,算法将在正确的聚类中分离它们。

12
大多数88 在职认证  发表于 2022-5-11 03:02:23
在Lance-Williams算法框架[9]中,它们与算法的“空间守恒”特性密切相关,尤其是在聚类过程中,聚类之间的距离发生变化的方式上。在[9]中,作者定义了他们所说的半空间守恒算法。半空间守恒算法[9]对于所有簇Ci、Cj和Ck、D(Ci),算法都是半空间守恒的∪ Cj,Ck)∈ [min(Dik,Djk),max(Dik,Djk)]在我们研究的Lance Williams算法中,单个、完整、平均和McQuitty算法是半空间守恒的。尽管Chen和Van Ness只考虑了Lance Williams算法,但空间守恒算法的定义对于任何凝聚层次算法都是有用的。半空间守恒性质的一个替代公式是:空间守恒算法。如果Dij是空间守恒的,则链接凝聚层次算法是空间守恒的∈貂皮∈Ci,y∈Cjd(x,y),maxx∈Ci,y∈Cjd(x,y).当点被聚集时,这种算法不会“扭曲”空间,这使得有效的可分性条件更容易得到。对于这些算法,可分性条件不依赖于簇的大小。以下两个命题很容易验证。提议半空间守恒的Lance Williams算法是空间守恒的。提议极小极大连锁和豪斯道夫连锁是空间守恒的。对于空间守恒算法,我们现在可以在距离矩阵上声明一个有效的可分离条件。提议以下条件是空间守恒算法的可分性条件:max1≤i、 j≤NC(i)=C(j)d(Xi,Xj)<min1≤i、 j≤NC(i)6=C(j)d(Xi,Xj)(S1)同一簇中任意两点的最大距离(内部)和不同簇中任意两点的最小距离(内部)。证据

13
大多数88 在职认证  发表于 2022-5-11 03:02:26
在聚类算法的s步之后,考虑簇之间距离的集合{dsij}(因此{dij}是点之间距离的初始集合)。表示{dsinter}(resp.{dsintra})步骤s中属于不同簇(resp.同一簇)的子簇之间的距离集。如果满足可分离性条件,则我们有以下不等式:≤ 最大直径<最小直径≤ max dinter(S2)那么可分离性条件意味着可分离性条件S2对所有步骤s都是有效的,因为在每一步之后,更新的内部距离都出现在《计算机科学:金融时间序列聚类》的10篇讲稿中,前一步内部距离的凸包和内部距离也是如此。此外,由于S2在每一步后都会被验证,因此该算法从不将不同聚类的点连接起来,因此该命题需要。ut2。5相关性矩阵的浓度范围我们已经确定了点的配置,这样聚类算法将找到正确的分区。现在,一致性的证明依赖于证明这些配置是可能的。事实上,我们在这些配置中的得分下降的概率为1,即T→ ∞.我们所说的算法一致性的精确定义如下:聚类算法的一致性。设(Xt,…,XtN),t=1,T,N个单变量随机变量观察T次。

14
能者818 在职认证  发表于 2022-5-11 03:02:29
如果算法覆盖P中所有分区的概率在T时收敛到1,则聚类算法与分层相关块模型(HCBM)一致,定义了一组嵌套分区P→ ∞.现在,我们通过使用经验相关矩阵上的集中边界的聚类算法,得到了找到正确聚类的概率的显式下界。如前一节所述,如果估计的相关矩阵验证了某些可分性条件,则可以确保正确的聚类。通过要求矩阵^rtt的每个条目上的误差小于对比度,即ρ,可以保证该条件-ρ、 关于理论矩阵R.Ingeneral关于kR阶矩阵^RTis的误差-^RTk∞= 操作qlog NT因此,如果 log(N)则聚类将找到正确的分区。结果和证据是即将出版的出版物的目标。下面我们只给出肯德尔的τ系数的结果,但斯皮尔曼的界是相似的。肯德尔τ相关矩阵ULet Xt上的浓度界限,t=1,具有椭圆copula和任意边界的N维分布的T,be,T独立实现。我们有库特- 英国∞≤ ≥ 1.-2Ne-T. (11) 成功概率的下限现在要求估计的相关矩阵的误差足够小。此外,ρistaken是一个泛型相关,∑对应的泛型相关矩阵。空间守恒算法当k∑时,可分离性条件满足-^∑k∞<ρ-ρ.

15
能者818 在职认证  发表于 2022-5-11 03:02:32
因此,概率至少为1-2Ne-T(ρ)-ρ) (12)对于肯德尔相关性的金融时间序列聚类,该算法找到了正确的划分。因此,我们获得了所提出算法与一级HCBM的一致性。2.6从一级HCBM到一般HCBM要从一级HCBM到一般情况,我们需要得到嵌套分区模型的可分离条件。对于节省空间的算法,这是通过要求层次结构的每个级别具有相应的可分性条件来实现的。所有人1≤ K≤ h、 我们定义DK和DK,以便所有1≤ i、 j≤ N、 我们有≤ dij≤ 当C(k)(Xi)=C(k)(Xj)和C(k+1)(Xi)6=C(k+1)(Xj)时。注意dk=(1)-ρk)/2和dk=(1)-ρk)/2。在嵌套分区的情况下,空间守恒算法的可分性条件。可分性条件为:dh<dh-1< . . . < dk+1<dk<…<d、 可以通过要求矩阵∑的每个条目上的误差小于最低对比度来保证该条件。因此,我们在相关矩阵上的空间守恒算法的最大误差为isk∑-^∑k∞< 貂皮ρk+1- ρk.我们最终从之前的浓度界限中获得了所提出算法与HCBM的一致性。2.7经验收敛率研究人员使用30天到几年的每日收益率作为源数据,根据其相关性对金融时间序列进行聚类。时间序列应该持续多久?如果太短,发现的簇可能是虚假的;如果时间长了,动力就会变得平稳。[31]中提供了解决这一问题的实用方法。为了便于说明,我们考虑了一个简单的情况,其中我们有两个相关块C。块Cisρ和块Cis 2ρ内的相关性以及两个块是独立的。占N分的70%。

16
nandehutu2022 在职认证  发表于 2022-5-11 03:02:35
因此,潜在的相关矩阵的形式为:12篇《计算机科学:金融时间序列聚类》课堂讲稿1 2ρ ··· 2ρ 0 ··· ··· ··· ··· 02ρ....................................2ρ..................2ρ ··· 2ρ 1 0 ··· ··· ··· ··· 00 ··· ··· 0 1 ρ ··· ··· ··· ρ............ ρ......................................................................................................ρ0 ··· ··· 0 ρ ··· ··· ··· ρ 1然后,我们模拟高斯和Student(具有ν=3个自由度,即重尾)随机向量,创建不同的相关矩阵,并使用Ward、Single、Complete和Average LinkageAlgorithm对这些矩阵进行聚类。然后,我们统计这些聚类程序的成功次数,即找到正确的分区,超过100次试验。本实验是针对两组参数(N,T)和(ρ,T)进行的。我们为这些不同的实验制作了热图(相对于成功的次数)。(N,T)实验。在第一个实验中,ρ固定在0.1,我们对不同的N和T值进行聚类。图5。单连杆应用于(左)斯皮尔曼不相似性,(右)皮尔逊不相似性;x轴是N=10。400,y轴为T=10。390.如图5所示,区域之间存在一个“过渡”区域,找到正确簇的概率几乎为1到0。该过渡区的绝对级别取决于聚类算法。我们在这些例子中可以看到,T的依赖性比Nand快得多,事实上,在我们的样本中,对于N>100,N的依赖性很小。对于中等规模的点组,通常是100,对金融时间序列13进行聚类≤ N≤ 400,我们可以推断T≥ 250所有聚类算法都以极高的概率在HCBM模型中找到正确的分区(参见。

17
何人来此 在职认证  发表于 2022-5-11 03:02:39
表2)。表2。T=250和N=400的100次试验中的成功次数单次平均完成pearson 989899spearman 9599100(ρ,T)试验。对于(ρ,T)实验,我们用斯皮尔曼相关矩阵和皮尔逊相关矩阵进行了两组不同的实验。一个是高斯随机变量,另一个是多元学生变量(ν=3自由度),显示出更厚的尾巴。正如学生分布所预期的那样,皮尔逊相关系数对更胖的尾巴不稳定,聚类成功率远低于高斯分布(图6),如图7所示。图6。Spearman(左)和Pearson(右)以及Average连锁的高斯情况。x轴是ρ=0。0.5,y轴为T=10。390.具体地说,我们的结果表明,为了对400个相关的财务时间序列进行适当的聚类,从业者应该需要≥ 250,即至少一年的每日价格。我们还建议测量与Kendall系数的相关性,因为——更通用的是:Kendall可以用于任何椭圆连接函数和任何边距,——无偏(与Spearman不同),——更快的收敛速度(比Spearman根据偏差校正的更快),《计算机科学:关于金融时间序列聚类》14篇讲稿图。7.斯皮尔曼(左)和皮尔逊(右)的学生案例以及平均联系。x轴是ρ=0。0.1,y轴为T=10。390.–可以用O(T log T)和O(T log T)对斯皮尔曼和皮尔逊进行有效计算。我们注意到,对于许多参数集,例如(N,T),(ρ,T),聚类精度是等量的。如图6所示。进一步的工作可能旨在描述这些曲线。我们也可以在图6中观察到ρ≤ 0.08,T的临界值爆炸。

18
可人4 在职认证  发表于 2022-5-11 03:02:43
当ρ趋于0时,确定这种渐近性是很有趣的。然而,观察到聚类是不稳定的(关于聚类方法[27],以及关于聚类距离[33])。这表明,即使在随机游走假设[15]下,金融时间序列中存在的信息也不能仅通过互相关来总结。3除了相关性之外:在本节中,我们提供了解决缺点的途径(i)在聚类时,i、 e.假设资产回报率服从高斯多变量分布。如果资产的收益率不是联合高斯分布的,那么方差-协方差矩阵就不能反映它们的相关性:线性(皮尔逊)相关性衡量的是线性相关性和边际效应的混合信息。由于特定事件或数据中的错误值(即重尾分布的尾部实现),一些资产的“异常值”回报很少会大幅降低测量的相关性,使人相信资产是弱相关的,对它们的投资是一种多元化投资。此外,即使几项资产完全“相关”,在进行聚类或风险分析时,人们可能仍希望区分高波动性资产和低波动性资产。关于金融时间序列的聚类153.1第一种方法是使用N个单变量时间序列来测量相似性和进行聚类的简单但常用的随机变量之间的距离,即距离E[(X- Y)。然而,这种距离并不适合我们的任务。例1(两个高斯数之间的距离b)设(X,Y)为二元高斯向量,X~ N(uX,σX),Y~ N(uY,σY),其相关性为ρ(X,Y)∈ [-1, 1]. 我们得到E[(X)-Y)]=(uX-uY)+(σX-σY)+2σXσY(1)-ρ(X,Y))。

19
mingdashike22 在职认证  发表于 2022-5-11 03:02:46
现在,考虑以下相关值:–ρ(X,Y)=0,所以E[(X- Y)]=(uX- uY)+σX+σY。这两个变量是独立的(因为不相关且联合正态分布),因此我们必须区分分布信息。假设uX=uYandσX=σY。对于σX=σY 1,我们得到E[(X)- Y)] 1,而不是比较两个相等的高斯数所期望的距离0ρ(X,Y)=1,所以E[(X-Y)]=(uX-uY)+(σX-σY)。由于变量是完全相关的,我们必须在分布上加以区分。实际上,我们用均值×标准差半平面上的一个度量来比较它们。然而,这不是比较两个高斯函数的合适几何[11]。例如,如果σX=σY=σ,我们发现E[(X- Y)]=(uX- uY)对于σ的任何值。随着σ的增长,两个高斯分布到阿吉文区间的概率变得相似(参见图8),但这种相似性的增加并未被这一点考虑在内。302010020300.000.050.100.150.200.250.300.350.40图。8.高斯N的概率密度函数(-5,1)和N(5,1)(绿色),高斯N(-5,3)和N(5,3)(红色),以及高斯N(-5,10)和N(5,10)(蓝色)。使用参数空间(u,σ)上的几何,绿色、红色和蓝色高斯是等距的。E[(X)-Y)]考虑了随机变量的依赖性和分布信息,但与我们的任务无关。我们的目的是引入一种新的数据表示和一个适当的距离,它同时考虑了分布近邻和联合行为。16计算机科学课堂讲稿:关于金融时间序列的聚类(Ohm, F、 P)是一个概率空间。Ohm 是样本空间,F是事件的σ代数,P是概率测度。设V是定义在上的所有连续实值随机变量的空间(Ohm, F、 P)。

20
可人4 在职认证  发表于 2022-5-11 03:02:49
设U为[0,1]上服从均匀分布的随机变量空间,G为绝对连续累积分布函数(cdf)空间。copula变换设X=(X,…,XN)∈ VNbe是cdfs GX=(GX,…,GXN)的随机向量∈ 格恩。随机向量GX(X)=(GX(X),GXN(XN))∈ UNis被称为copula变换。copula变换的一致边缘GXi(Xi),1≤ 我≤ N,在[0,1]上均匀分布。证据x=GXi(G-1Xi(x))=P(Xi≤ G-1Xi(x))=P(GXi(Xi)≤ x) 。我们定义了随机向量的以下表示形式,它实际上将边际变量的联合行为与其分布信息分开。依赖⊕ 分布空间投影。设T是一个映射,它将X=(X,…,XN)转换为它的泛型表示,一个表示X的UN×gn元素,定义如下:VN→ UN×GN(13)X 7→ (GX(X),GX)。T是双射。证据T与任何元素(U,G)一样是满射的∈ UN×GN有光纤G-1(U)。T是内射的,如(U,G)=(U,G)a.s.在UN×gni中,它们具有相同的cdf G=G=Gand,因为U=Ua。s、 因此,G-1(U)=G-1(U)a.s.这个结果复制了copula理论的开创性结果,即Sklar定理[44],该定理断言可以在不丢失任何信息的情况下分割依赖关系和分布。图9示出了N=2时的该投影。我们利用提出的表示法在随机变量之间建立一个合适但简单的关系,该关系在差同态下是不变的。两个随机变量之间的距离dθ∈ [0, 1]. 让(X,Y)∈设G=(GX,GY),其中GX和GY分别是X和Y边缘CDF。我们定义了以下距离θ(X,Y)=θd(GX(X),GY(Y))+(1- θ) 其中d(GX(X),GY(Y))=3E[|GX(X)- GY(Y)|],(15)和D(GX,GY)=ZRrdGXdλ-rdGYdλ!dλ。(16) 关于金融时间序列聚类17图。9

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-1 01:21