楼主: 大多数88
1739 33

[量化金融] 关于金融时间序列聚类:对时间序列之间距离的需求 [推广有奖]

21
能者818 在职认证  发表于 2022-5-11 03:02:53
安赛乐米塔尔和Soci’et’e g’en’e一般价格(T观测值(Xt,Xt)Tt=1(X,X)∈ 五) 都是依赖性的⊕ 分布空间;(GX(X),GX(X))∈ 上标X和X之间的依赖关系(完美的相关性将由散点图上的尖锐对角线表示);(GX,GX)是边缘(它们的对数密度显示在上面),请注意它们的重尾指数分布(尤其是对于安赛乐米塔尔)。尤其是d=√1.-BC是与Bayes分类误差的Bhattacharyya(1/2-Cherno ff)系数BC上限相关的Hellinger距离。为了量化分布的不相似性,使用dis而不是更一般的α-chernoff差异,因为它满足了变量单调变换的不变性(对从业者来说很重要,因为它确保对标度(例如单位的选择)或基本现象的测量方案(例如设备、数学模型)不敏感)。此外,dθ因此可以有效地实现为标量积。d=p(1)-ρS)/2是测量两个随机变量之间统计相关性的距离相关性,其中ρ是X和Y之间的斯皮尔曼相关性。请注意,可以使用copula C[0,1]来表示dca→ [0,1]由关系式g(X,Y)=C(GX(X),GY(Y))隐含定义,因为ρS(X,Y)=12RRC(u,v)du dv-3 [17].例2(两个高斯数之间的距离dθ)设(X,Y)为二元高斯向量,X~ N(uX,σX),Y~ N(uY,σY)和ρ(X,Y)=ρ。我们得到,dθ(X,Y)=θ1-ρS+(1)-θ)1 -s2σXσYσX+σYe-(uX)-uY)σX+σY!。记住,对于完全相关的高斯分布(ρ=ρS=1),我们想要对它们的分布进行区分。我们可以观察到,对于σX,σY→ +∞, 然后d(X,Y)→ 它缓解了基本立场的一个主要缺点,即+∞ 在这种情况下;——如果uX6=uY,对于σX,σY→ 0,然后是d(X,Y)→ 1,其最大值,即。

22
能者818 在职认证  发表于 2022-5-11 03:02:57
这意味着两个高斯函数之间的距离不可能比两个不同的狄拉克-德尔塔函数更遥远。18计算机科学课堂讲稿:关于金融时间序列的聚类当前两个矩u和σ占主导地位时,该距离是距离dθ的快速且良好的代理。然而,对于包含重尾分布的数据集,它无法捕获这些信息。为了在无参数假设的采样数据上应用所提出的距离dθ,我们必须在i.i.d.随机变量的实现上确定其统计估计dθ。连续均匀分布的距离数据可以通过产生离散均匀分布的标准化秩统计来近似,实际上是多元经验copula[13]的坐标,这是一种一致收敛于基础copula[14]的非参数估计。通过使用直方图密度估计的离散形式,可以近似计算与密度有关的距离数据。经验copula变换。设XT=(XT,…,XtN),t=1,T,be T从随机向量X=(X,…,XN)的观测值,具有连续的裕度GX=(GX(X),GXN(XN))。由于无法直接获得相应的copula观测值(GX(Xt),GXN(XtN))在不知道先验GX的情况下,可以估算N个经验裕度GTXi(x)=TPTt=11(Xti≤ x) 为了获得T个经验观测值(GTX(Xt),GTXN(XtN))与标准化秩统计相关,如GTXi(Xti)=X(t)i/t,其中X(t)ide表示观测值Xti的秩。经验距离。设(Xt)Tt=1和(Yt)Tt=1是重值随机变量X,Y的T个实现∈ 分别是V。

23
何人来此 在职认证  发表于 2022-5-11 03:03:00
随机变量实现之间的经验距离可以用dθ来定义(Xt)Tt=1,(Yt)Tt=1a、 s.=θ@d+(1)-θ) ~d,(17)式中,~d=T(T- 1) TXt=1X(t)- Y(t)(18) 和d=+∞Xk=-∞qghX(香港)-qghY(香港), (19) 这里是一个合适的带宽,ghX(x)=TPTt=11(bxhch≤ Xt<(bxhc+1)h)是一个密度直方图,用于估计pdf gXfrom(Xt)Tt=1,T随机变量X的实现∈ V.为了有效地使用dθ及其统计估计值,可以归结为选择θ的特定值。我们在此建议一种探索性方法,其中一种方法可以测试(i)分布信息(θ=0),(ii)依赖信息(θ=1),以及(iii)两种信息的混合(θ=0.5)。理想情况下,θ应反映数据中依赖性和分布信息的平衡。在有监督的环境中,人们可以选择正确平衡θ的估计值?通过交叉验证等技术优化损失函数。然而,由于缺乏明确的损失函数,θ的估计?在无人监督的环境中很难做到。对于聚类,许多作者[26]、[41]、[42]、[34]建议将稳定性作为参数选择的工具。关于金融时间序列聚类193.2如何将该方法扩展到N个多元时间序列?我们现在感兴趣的是对由多个时间序列描述的N个资产进行聚类。虽然一只股票通常用一个时间序列来描述,但它的市场价格和其他资产(如信用违约掉期)可以用几个到期日及其期限结构来描述。实际上,CDS期限结构时间序列是一个5变量的时间序列。在每个时间t,它包括不同交易到期日的d=5价格:1年、3年、5年、7年、10年。我们认为,在机器学习文献[53,43,12]中,还没有对每个对象由几个时间序列描述的情况进行彻底探讨。我们建议开发一种基于几何的方法来解决这个聚类问题。

24
能者818 在职认证  发表于 2022-5-11 03:03:04
至少可以探索三种研究途径:信息几何理论的距离、最优传输理论的距离、分布核嵌入的距离[45]。内部依赖和利润。我们假设描述给定资产的d时间序列遵循密度f(x):=f(x,…,xd)的d变量分布。根据Sklar定理[44],我们有F(x,…,xd)=c(F(x),Fd(xd))dYi=1fi(xi),(20),其中c是copula密度,fia是边际累积分布函数和fitheir密度。假设采用参数建模,我们可以推导出两个资产之间的Fisher-Rao测地距离,分别由其参数多元密度f(x,…,xd;θ)和f(x,…,xd;θ)表示。由于copula density有自己的一组参数θc,而边距也有自己的参数θmi,我们有f(x,…,xd;θ)=f(x,…,xd;θc,θm),它等于toc(f(x;θm),Fd(xd;θmd);θc)Qdi=1fi(xi;θmi)。为了计算f(x;θ)和f(x;θ)之间的Fisher-RaoGeodes距离D:D(f(x;θ),f(x;θ))=Zθds=ZvuutXi,jgij(θ(t))Dθidtdθjdtdtdt,(21)我们首先计算Fisher信息矩阵gij(θ):计算机科学20篇讲稿:关于金融时间序列的聚类gij(θ)=-前任θiθjlog c(F(x;θm),Fd(xd;θmd);θc)(22)-前“θiθjlogdYk=1fk(xk;θmk)#(23)=-前任θiθjlog c(F(x;θm),Fd(xd;θmd);θc)(24)-dXk=1EXθiθjlog fk(xk;θmk)(25)如果我们选择[16]中的标准最大似然假设,那么θmc(u,…,ud;θc)=0。因此gθc,θm=gθm,θc=0。因此,我们得到了Fisher-Rao度量=Xi,jgij(θ)dθidθj=gθc,θcdθcdθc+dXi=1Xk,lgθmk,θmldθmldθmk。

25
何人来此 在职认证  发表于 2022-5-11 03:03:08
(26)它可以用ds=dscopula+dXi=1dsmargins表示,(27),因此Fisher-Rao测地距离是两个多元密度的依赖结构之间的距离+这两个多元密度的边缘分布之间的距离。然而,由于Fisher-Rao距离经常难以处理,人们通常会考虑相关的发散,例如Kullback-Leibler、对称Jeffreys、Hellinger或Bhattacharyya发散,这些发散与两个紧密分布之间Fisher-Rao距离的二次近似相吻合,并且在计算上更容易处理。找到验证这种可分解性的分歧类别是很有趣的。例如,库尔贝克-莱布勒散度不是:KL(f,g)6=KL(cf,cg)+Pdi=1KL(fi,gi)。然而,如果f和g有相同的边缘,即。我∈ {1,…,d},fi=gi,那么可以证明[22]KL(f,g)=KL(cf,cg)=KL(cf,cg)+Pdi=1KL(fi,gi)。特定距离的选择将如何影响聚类?为了说明这一点,本文简要比较了Fisher-Rao及其相关的发散和二元高斯连接函数之间的Wasserstein距离。LetCGaussRA,CGaussRB,CgausSrc是由以下相关矩阵参数化的三个二元高斯copula=1 0.50.5 1, RB=1 0.990.99 1, 钢筋混凝土=1 0.99990.9999 1分别地其密度的热图如图10所示。关于金融时间序列的聚类21图。10.CGaussRA、CGaussRB和CGAUSSRC的密度;请注意,对于强相关性,密度的分布往往非常接近对角线。在表3中,我们报告了CGAUSSRA和CGaussRB之间的距离D(RA,RB),以及CGaussRB和CGaussRC之间的距离D(RB,RC)。

26
kedemingshi 在职认证  发表于 2022-5-11 03:03:11
我们可以观察到,与Wasserstein Wdistance不同,Fisher-Rao和相关的分歧认为CGAUSSRA和CGAUSSR比CGAUSSR更接近CGAUSSR波段CGaussRC。这可能是聚类的一个不可取的特性,因为CGAUSSR和CGAUSSR都描述了两个变量之间的正相关性,而CGAUSSR只描述了轻微的正相关性。表3。高斯函数之间的封闭距离及其对相关强度的灵敏度hd(N(0,∑),N(0,∑)D(RA,RB)D(RB,RC)Fisher-Rao[3]qPni=1(logλi)2.77<3.26KL(∑|∑)对数|∑|∑|- n+tr(σ)-1Σ)22.6<47.2 Je ff reys KL∑|∑)+KL∑∑|∑24<49 Hellingerr1-|∑| 1/4 |∑| 1/4 |∑| 1/20.48<0.56Bhattacharyyalog |∑|√|∑| |∑| 0.65<0.81W[47]strΣ+ Σ- 2q∑1/2∑∑1/20.63>0.09λi∑的值-1Σ; ∑=∑+在金融应用中,变量可能具有强相关性(例如,期限结构中不同到期日的回报)。在这种情况下,Fisher-Rao和相关发散产生的聚类与使用Wasserstein Wdistance得到的聚类有很大不同:让我们考虑一个由图11.22《计算机科学课堂讲稿:关于聚类金融时间序列》中描述的六个高斯copula均匀生成的N个双变量时间序列的数据集,当给Ward这样的聚类算法一个距离矩阵时从Fisher-Rao计算(如图12所示),它将倾向于聚集在一个簇中,而描述高度依赖性的那些是孤立的。Wyields是一个平衡且直观的聚类,其中聚类包含相似依赖的连接词。图11。二元时间序列的数据集由六个相关系数为.1、.2、.6、.7、.99、.9999的高斯连接函数生成。图。12

27
大多数88 在职认证  发表于 2022-5-11 03:03:14
Fisher Rao(左)和W(右)的距离热图;使用Ward聚类,Fisher-Rao产生关联性为{.1、.2、.6、.7}、{.99}、{.9999}、Wyields{.1、.2}、{.6、.7}、{.99、.9999}的Copula簇。因此,如果时间序列之间的依赖性很强,使用Fisher-Rao测地距离和相关发散可能不合适。它们与确定哪些样本是从同一组参数(聚类被视为三个样本问题的推广[40])中生成的相关,因为它们的局部表达式是Fisher信息矩阵的二次形式,确定了估计量方差的Cram’er-Rao下界。为了聚类,为了测量连接函数之间的距离,Wasserstein Geometry可能更合适,因为它不会导致这些违反直觉的聚类。我们将进一步调查这个问题。在比较copula的可能距离时,我们还希望将概率分布嵌入再生核希尔伯特空间[46]。关于金融时间序列的聚类23相互依赖性。但是,请注意,两个copula之间的距离仅测量坐标x,它们各自多元分布的共同行为,即内部依赖性。它没有提供关于时间序列联合行为的信息(它们是如何一起移动的?)为了获得这样的信息,人们可以构建二维变量时间序列的二维变量copula,将其视为单个二维变量时间序列,并将其与二维变量独立copula进行比较(该想法如图13所示)。[32]中描述了这种使用最佳传输来比较连接词的回指方法。

28
nandehutu2022 在职认证  发表于 2022-5-11 03:03:18
但是,除了失去两个不同时间序列的概念外,这种结构还捕获了内部依赖(协调联合行为)和相互依赖(多变量时间序列联合行为)的混合信息。人们已经意识到,copula不足以构建具有多元边缘的分布[18]。在[28]中,作者提出了一个名为linkagefunction的类似工具来解决这些问题:linkagefunction包含有关基础多元分布(相互依赖)中依赖结构的信息,但不包括多变量分布(内部依赖)中的依赖结构。图13。相关性可以被视为独立copula和一个或多个目标相关性copula之间的相对距离。在这幅图中,目标依赖是“完美依赖”和“完美反依赖”。经验copula(数据copula)是由正相关的高斯函数构建的,因此更接近“完美依赖”copula(右上角),而不是“完美反依赖”copula(左下角)。24计算机科学课堂讲稿:关于金融时间序列的聚类4在这项工作中的讨论,我们提出了一个新的金融时间序列建模框架。聚类可以开发一种替代的投资组合理论和更相关的风险度量。一些研究人员已经开始探索这一研究途径。到目前为止,他们使用Pearson correlationmatrix作为相似性矩阵来对资产进行聚类,从而假设日志收益的高斯性。我们建议用一个矩阵取代皮尔逊相关矩阵,该矩阵的系数更准确地衡量资产回报之间的依赖性和分布相似性,可以遵循任意联合分布。

29
mingdashike22 在职认证  发表于 2022-5-11 03:03:21
对于信息几何理论家来说,它归结为设计相依随机变量之间的距离。我们认为,一种有趣的方法可以通过开发一种基于随机变量(copula,margins)表示的几何,以及随机向量(linkage,(copula,margins))表示的几何来实现。我们已经开始试验(规则化)最优运输,并期待利用信息几何距离改进我们的金融时间序列聚类方法。我们将很高兴获得更多的反馈,并希望我们的问题被足够清楚地暴露出来,以便其他研究人员能够为这些依赖(多元)分布开发合适的几何。致谢。Gautier Marti要感谢江口教授的帮助和鼓舞人心的评论,Brigo教授为我们指出了关于依赖性、连接函数和最优运输的有趣研究方向,以及Fr’ed’eric Barbaresco为我们提供了相关文献、历史参考和有趣的讨论。我们还要感谢Hellebore Capital的同事,以及Philippe的友好反馈。最后,作者感谢在英国爱丁堡国际数学科学中心举办的“用于图像和信号处理的计算信息几何”研讨会的组织者的邀请。参考文献1。罗曼·阿莱兹、乔·布恩和让·菲利普·布沙德。具有外部源的高斯矩阵的特征向量。arXiv预印本arXiv:1412.7108,2014.2。萧龙敖、叶凯文、吴国宝、张大伟、裴亦芳、伊恩·梅尔哈多和朴志深。Clustag:用于选择标记SNP的分层聚类和图形方法。生物信息学,21(8):1735-17362005.3。科林·阿特金森和安·米切尔。拉奥的距离测量。《印度统计杂志》,a辑,第345-365页,1981.4。

30
mingdashike22 在职认证  发表于 2022-5-11 03:03:24
西瓦拉曼·巴拉克里希南、徐敏、阿克谢·克里希那穆尔蒂和阿尔蒂·辛格。Noisethresholds适用于光谱聚类。第954-962页,2011.5。尼古拉斯·巴萨托、罗伯托·贝洛蒂、弗朗切斯科·德卡洛、保罗·法基、埃斯特·潘塔里奥和萨维里奥·帕斯卡齐奥。金融时间序列的Hausdor ff聚类。Physica A:统计力学及其应用,379(2):635–6442007。关于金融时间序列的聚类256。Jacob Bien和Robert Tibshirani。通过极大极小链接进行分层聚类。《美国统计协会杂志》,106(495):1075–10842011.7。Petro Borysov、Jan Hannig和JS Marron。增长维度的层次聚类的渐近性。多变量分析杂志,124:465–4792014.8。乔·布恩、罗曼·阿莱兹、让·菲利普·布沙德和马克·波特。一般噪声矩阵的旋转不变估计。arXiv预印本arXiv:1502.067362015.9。陈振民和约翰·W·范·内斯。空间守恒凝聚算法。分类杂志,13(1):157-168,1996.10。Rama Cont.资产回报的经验性质:程式化事实和统计问题。2001.11. 苏伊丽·伊尔·科斯塔、桑德拉·桑托斯和乔·奥埃斯特拉帕森。Fisher信息距离:几何读数。离散应用数学,2014.12。塔姆拉帕尼·达苏、黛博拉·F·斯韦恩和大卫·普尔。分组多变量序列:一个案例研究。《IEEE时态数据挖掘研讨会论文集:算法、理论和应用》,与休斯顿数据挖掘会议合著,第25-32页,2005.13。保罗·德霍夫斯。经验和财产的继承。不可测试,不可测试。阿卡德。罗伊。贝尔格。公牛Cl.Sci。(5), 65(6):274–292, 1979.14. 保罗·德霍夫斯。多元分布独立性检验的渐近分解。多变量分析杂志,11(1):102-1131981.15。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-1 01:22