楼主: 大多数88
1737 33

[量化金融] 关于金融时间序列聚类:对时间序列之间距离的需求 [推广有奖]

  • 0关注
  • 3粉丝

会员

学术权威

67%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
70.8397
学术水平
0 点
热心指数
4 点
信用等级
0 点
经验
23294 点
帖子
3809
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
大多数88 在职认证  发表于 2022-5-11 03:01:42 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《On clustering financial time series: a need for distances between
  dependent random variables》
---
作者:
Gautier Marti, Frank Nielsen, Philippe Donnat, S\\\'ebastien Andler
---
最新提交年份:
2016
---
英文摘要:
  The following working document summarizes our work on the clustering of financial time series. It was written for a workshop on information geometry and its application for image and signal processing. This workshop brought several experts in pure and applied mathematics together with applied researchers from medical imaging, radar signal processing and finance. The authors belong to the latter group. This document was written as a long introduction to further development of geometric tools in financial applications such as risk or portfolio analysis. Indeed, risk and portfolio analysis essentially rely on covariance matrices. Besides that the Gaussian assumption is known to be inaccurate, covariance matrices are difficult to estimate from empirical data. To filter noise from the empirical estimate, Mantegna proposed using hierarchical clustering. In this work, we first show that this procedure is statistically consistent. Then, we propose to use clustering with a much broader application than the filtering of empirical covariance matrices from the estimate correlation coefficients. To be able to do that, we need to obtain distances between the financial time series that incorporate all the available information in these cross-dependent random processes.
---
中文摘要:
以下工作文件总结了我们在金融时间序列聚类方面的工作。它是为信息几何学及其在图像和信号处理中的应用而编写的。这次研讨会邀请了几位纯数学和应用数学方面的专家,以及来自医学成像、雷达信号处理和金融领域的应用研究人员。作者属于后一类。本文是对金融应用(如风险或投资组合分析)中几何工具的进一步开发的一篇长篇介绍。事实上,风险和投资组合分析基本上依赖于协方差矩阵。除了高斯假设已知不准确外,协方差矩阵很难根据经验数据进行估计。为了从经验估计中过滤噪声,Mantegna提出了使用层次聚类的方法。在这项工作中,我们首先证明了这个过程在统计学上是一致的。然后,我们建议使用比从估计相关系数中过滤经验协方差矩阵更广泛的聚类应用。为了做到这一点,我们需要获得金融时间序列之间的距离,这些时间序列包含这些相互依赖的随机过程中的所有可用信息。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--
一级分类:Statistics        统计学
二级分类:Methodology        方法论
分类描述:Design, Surveys, Model Selection, Multiple Testing, Multivariate Methods, Signal and Image Processing, Time Series, Smoothing, Spatial Statistics, Survival Analysis, Nonparametric and Semiparametric Methods
设计,调查,模型选择,多重检验,多元方法,信号和图像处理,时间序列,平滑,空间统计,生存分析,非参数和半参数方法
--

---
PDF下载:
--> On_clustering_financial_time_series:_a_need_for_distances_between_dependent_rand.pdf (1.98 MB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:金融时间序列 时间序列 Applications Hierarchical Econophysics

沙发
何人来此 在职认证  发表于 2022-5-11 03:01:49
关于金融时间序列的聚类:独立随机变量之间的距离需要专家Marti1,2、弗兰克·尼尔森、菲利普·唐纳特和S’ebastien and Lerhellebore资本管理公司香榭丽舍大道63号、巴黎75008号、弗朗西科尔理工学院-UMR 7161号、91128帕莱索塞德斯、弗朗西科尔正常里昂高等教育学院46意大利全日制学院、里昂塞德斯07号69364号、,弗朗西亚斯特。以下工作文件总结了我们在金融时间序列聚类方面的工作。它是为信息几何学及其在图像和信号处理中的应用而编写的。这次研讨会邀请了几位纯数学和应用数学专家,以及来自医学成像、雷达信号处理和金融领域的应用研究人员。作者属于后一类。本文件是对金融应用(如风险或投资组合分析)中几何工具的进一步开发的详细介绍。事实上,风险和投资组合分析基本上依赖于协方差矩阵。除高斯假设已知不准确外,协方差矩阵很难根据经验数据进行估计。为了从经验估计中过滤噪声,Mantegna提出使用分层聚类。在这项工作中,我们首先表明,这一过程在统计上是一致的。然后,我们建议使用更广泛的聚类应用,而不是从估计相关系数中过滤经验协方差矩阵。

藤椅
可人4 在职认证  发表于 2022-5-11 03:01:52
为了做到这一点,我们需要获得金融时间序列之间的距离,该时间序列包含这些相互依赖的随机过程中的所有可用信息。关键词:聚类;财务时间序列;噪声协方差矩阵;依赖结构;分布之间的距离;经验金融;信用违约掉期1聚类用于金融风险建模在金融应用中,方差协方差矩阵是评估投资组合风险的重要工具。假设资产的回报率服从高斯多元分布,方差-协方差矩阵既能捕捉到它们的关联行为(在本例中,是它们的皮尔逊相关性),也能捕捉到每项资产的特定风险,对应于其回报率的标准差(也称为财务可用性)。然而,使用经验方差-协方差矩阵至少有两个缺点:计算机科学中的两个课堂讲稿:关于金融时间序列的聚类(i)如果资产的回报遵循另一个多元分布,那么方差-协方差矩阵只测量受(可能是重尾)边缘扰动的线性相关的混合信息。在这种情况下,方差-协方差矩阵不是从过去收益时间序列量化金融资产之间风险的相关工具;(ii)根据数据估计经验方差协方差矩阵本身就是一个问题[25]。对于N个资产,必须估计N(N-1) /2长度为T的n个时间序列的系数。如果T比N小,则系数将是有噪声的,矩阵在某种程度上是随机的。文献中的缺点(ii)已通过几种方法解决。其中一个利用了随机矩阵理论(RMT)的结果,可以在经济物理学文献[24,25,37,39,1,8]中的术语“噪声修整”下找到。

板凳
kedemingshi 在职认证  发表于 2022-5-11 03:01:55
例如,[24]中的作者将经验相关特征值的分布与Mt给出的已知理论分布进行比较,发现94%的特征值总数支持理论分布。这项实验以股市数据为基础,更准确地说,是利用1991-1996年间标准普尔500指数的406项资产。我们可以观察到,关于股票之间相关性的这种程式化事实也适用于不同的市场和不同的时期。例如,我们在信用违约互换(CDS)市场上说明了这种经验性质。设X为存储2006-2015年(T)期间N=560信用违约掉期(5年到期)的标准化每日收益的矩阵≈ 每个时间序列有2500个值)。然后,收益率的经验相关矩阵为C=TXX>。我们可以计算其特征值ρ(λ)=Ndn(λ)dλ的经验密度,其中n(λ)计算小于λ的C的特征值数。根据随机矩阵理论,极限分布为N→ ∞, T→ ∞ T/N固定读数:ρ(λ)=T/N2πp(λmax- λ)(λ -λmin)λ,(1)其中λmaxmin=1+N/T±2pN/T,和λ∈ [λmin,λmax]。我们可以在图1中观察到,理论分布与经验分布非常吻合,这意味着经验相关矩阵中包含的大部分信息都可以被视为噪声。只有26个特征值大于λmax,即95%的特征值总数符合理论分布。这些结果是需要考虑的重要因素:例如,它们“在风险管理和投资组合优化方面有着有趣的潜在应用。很明显[…]马科维茨的投资组合优化方案基于相关矩阵的恰当历史确定,这是不充分的,因为其最低特征值(对应于最小风险投资组合)由噪声主导“[25]。

报纸
nandehutu2022 在职认证  发表于 2022-5-11 03:01:59
它激发了对相关矩阵过滤程序的需求。除了RMT方法外,还提出了其他几种方法,并进行了比较[51,36]。从这些论文中可以看出,与收缩或基于RMT的金融时间序列相关矩阵估值器等其他估值器相比,层次聚类法产生了更好的结果[50]。图2和图3说明了[30]中首次描述的分层聚类过滤程序。关于金融时间序列聚类30.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0λ0.00.20.40.60.81.01.21.41.61.8ρ(λ)图1。纯随机相关矩阵的理论特征值密度(红色)与相关矩阵特征值的经验密度(蓝色)在图2中,我们显示了在长度为T的N=560个时间序列的ourCDS数据集上估计的经验相关矩阵≈ 然后,我们运行一个分层聚类算法(例如平均链接),该算法对时间序列进行重新排序,从而对相关矩阵进行系列化。重新排序的相关矩阵如图3(左)所示。我们现在可以注意到它的噪声层次相关结构。根据计算出的层次聚类,我们最终可以过滤相关系数,以获得图3(右)所示的相关矩阵。0 100 200 300 400 5000100200300500Fig。2.根据长度为T的n=560信用违约掉期时间序列的对数收益计算的经验和噪声相关矩阵≈ [29]中的2500个Mantegna和随后的许多论文坚持金融时间序列中存在的层次关联模式。这种内在结构可以解释分层聚类过滤程序的效率。4计算机科学的课堂讲稿:关于金融时间序列的聚类0 100 200 300 400 50001003004005000 100 200 300 400 50001003004005000图。3.

地板
可人4 在职认证  发表于 2022-5-11 03:02:02
采用分层聚类算法对同一噪声相关矩阵进行重新排序;人们可以注意到它嘈杂的层次相关结构(左);[30](右)中所述方法产生的过滤相关矩阵,考虑了[10]中详细记录的液体金融市场每日资产回报的其他已知经验特性,我们不考虑向量自回归(VAR)模型和频域方法:Mandelbrot通过说明套利倾向于破坏价格变化的频谱来表达这一特性。这一特性意味着,基于二阶特性的传统信号处理工具在时域(自方差分析、ARMA建模)或谱域(傅里叶分析、线性滤波)中无法区分资产收益和白噪声。这就指出,为了刻画资产收益的依赖性,需要对依赖性进行非线性度量。摘自[10]现在,假设数据遵循这种潜在的层次关联模型,我们可能会想知道这些聚类过程是否一致。如果时间序列足够长,他们是否总是恢复基础模型?如果是这样的话,对从业者来说,另一个有趣的点是了解融合者。有多少数据足以使结果可靠?事实上,由于这些时间序列可能不是平稳的,从业者希望使用尽可能短的时间间隔,前提是结果仍然相关。在下一节中,我们通过证明分层相关块模型中的聚类在统计上是一致的,来证明聚类方法在金融时间序列之间相关性分析中的有效性。

7
大多数88 在职认证  发表于 2022-5-11 03:02:05
我们还提供了一些准则,以选择聚类算法、相关系数和获得有意义的聚类所需的最小观察数的良好组合。关于金融时间序列的聚类52关于聚类相关随机变量的一致性我们表明,从他们的观察中聚类相关随机变量在统计学上是一致的。更准确地说,当相关随机变量的潜在簇满足足够强的分离条件,并且有足够多的观测值时,我们证明了许多著名的簇算法以很高的概率恢复这些簇结构。我们通过对收敛速度的实证研究证实了我们的理论结果。聚类一致性已被广泛研究,从Hartigan提出的单链[19]和Pollard的k-均值一致性证明[38]到最近的工作,如谱聚类一致性[52],或修正的k-均值[48],[49]。然而,这些论文假设N个数据点是从维度T固定的潜在概率分布中独立采样的。结果表明,在大样本范围内,N→ ∞, 该算法构造的聚类结构收敛于整个底层空间的聚类。为了证明时间序列渐近性中聚类的一致性,即(N→ ∞, T→ ∞, 电话号码→ ∞) 和(N固定,T→ ∞). 我们应该提到[7],它显示了三种分层聚类算法的渐近行为,即单一、平均和双向链接,以及它们在从二维高斯分布N(u,σIT)和N(u,σIT)以及[40]、[20]的混合物中聚类N=N+m个观测值时的一致性,[21]他们仅根据聚类过程的分布来证明聚类过程的k-均值的一致性。

8
nandehutu2022 在职认证  发表于 2022-5-11 03:02:08
在这项工作中,我们根据观察到的相关性,展示了从T个随机变量的观测值中聚类N个随机变量的一致性。本文给出的一致性结果适用于几种著名的聚类算法,与[7]不同,我们不假设随机变量为高斯分布,但数据假设根据相关系数的自然范围进行了调整(例如,对于Pearsoncorrelation,高斯分布;对于Kendall tau秩相关,椭圆copula分布)。符号-X,XNunivariate random variables–Xtis变量Xi–X(t)的t观测值Xi–FX是Xi之间X–ρij=ρ(Xi,Xj)相关性的累积分布函数,Xj–dij=d(Xi,Xj)Xi之间的距离,Xj–dij=d(Ci,Cj)集群之间的距离,Cj–Pk={C(k),…,C(k)lk}是X的一个分区,XN–C(k)(Xi)表示Xiin分区Pk–k∑k中的簇∞= maxij∑ij–X=Op(k)表示X/k是随机有界的,即。ε > 0, M>0,P(|X/k |>M)<ε6计算机科学课堂讲稿:关于金融时间序列的聚类2。1相关性最常见的相关系数是由ρ(X,Y)=E[XY]定义的皮尔逊相关系数- E[X]E[Y]pE[X]-E[X]pE[Y]-E[Y](2)可以通过^ρ(X,Y)=PTt=1(Xt)来估计- 十) (Yt)- Y)qPTt=1Xt- 十、qPTt=1Yt- Y(3) 其中X=TPTt=1xt是X的经验平均值。该系数克服了几个缺点:它只测量两个变量之间的线性关系;它对噪声不鲁棒,如果其中一个变量的分布具有有限的秒矩,则可能无法确定。

9
kedemingshi 在职认证  发表于 2022-5-11 03:02:12
更稳健的相关系数是基于copula的相关性度量,如肯德尔的tauτ(X,Y)=4ZZC(u,v)dC(u,v)- 1(4)=Ehsign(十)-~X)(Y)-~Y)i(5)式中,X是X的独立副本,C是copula,其统计估计^τ(X,Y)=P1≤i<j≤Tsignxi- Xj易- YjT(6) 斯皮尔曼的ρs(X,Y)=12ZZC(u,v)dudv-3(7)=12 E[FX(X),FY(Y)]-3(8)=ρ(FX(X),FY(Y))(9)及其统计估计^ρS(X,Y)=1-T(T- 1) TXt=1X(t)- Y(t). (10) 这些相关系数对噪声具有鲁棒性(因为秩统计标准化因子),对随机变量的单调变换具有不变性(因为基于copula的度量得益于概率积分变换fx(X))~ U[0,1])。关于金融时间序列聚类72.2相关性聚类:分层相关性块模型我们假设N个单变量随机变量X,Xn遵循分层相关块模型(HCBM)。该模型由具有分层块结构的相关矩阵组成[4],[23]。每个块对应一个我们想要用聚类算法恢复的相关聚类。英菲格。4.我们显示了HCBM的相关矩阵。请注意,在实践中,人们没有观察到左图中显示的分层块对角结构,而是观察到与右图中显示的相关矩阵相似的相关矩阵,该矩阵与左图中显示的相关矩阵相同,直至数据的排列。HCBM定义了一组嵌套分区P={P P . . .  对某些人来说∈ [1,N],其中Pis是平凡分区,分区Pk={C(k),…,C(k)lk},和tlki=1C(k)i={X,…,XN}。所有人1≤ K≤ h、 我们定义ρ和ρk,对于所有1≤ i、 j≤ N、 我们有ρk≤ ρij≤ ρkwhen C(k)(Xi)=C(k)(Xj)和C(k+1)(Xi)6=C(k+1)(Xj),即。

10
kedemingshi 在职认证  发表于 2022-5-11 03:02:16
ρk和ρk分别是深度k处分区pk中所有簇C(k)内的最小和最大相关性。为了有一个合适的嵌套相关性层次,我们必须使所有k具有ρk<ρk+1。图4。(左)层次相关块模型;(右)观察到的相关矩阵(在HCBM之后)与左矩阵相同,直到数据的排列,而不丧失一般性,为了便于演示,我们将考虑大小为n,…,K块的一级HCBM,nkpki=1ni=N。我们稍后将解释如何将结果扩展到一般的HCBM。由于聚类方法通常需要一个距离矩阵作为输入,我们还考虑了系数dij=1的相应距离矩阵-ρij,其中0<ρij<1是一个相关系数(Pearson,Spearman,Kendall)。2.3聚类方法聚类数据的文献中存在许多范例。在这项工作中,我们只考虑硬(与软)聚类方法,即生成数据分区的算法(与将多个聚类分配给计算机科学:关于给定数据点的金融时间序列聚类的8篇讲稿的方法相反)。在硬聚类家族中,我们可以将这些算法分类为分层聚类方法(产生数据的嵌套分区)和模糊聚类方法(产生单个分区),例如ask方法。我们将考虑进一步细分层次聚类的Fine Lance Williams家族,因为许多流行算法,如单连锁、完全连锁、平均连锁(UPGMA)、McQuitty连锁(WPGMA)、中值连锁(WPGMC)、质心连锁(UPGMC)和Ward方法都是该家族的成员(参见表1)。这将使我们能够更简洁、统一地处理这些算法的一致性证明。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-31 23:21