|
随机变量实现之间的经验距离可以用dθ来定义(Xt)Tt=1,(Yt)Tt=1a、 s.=θ@d+(1)-θ) ~d,(17)式中,~d=T(T- 1) TXt=1X(t)- Y(t)(18) 和d=+∞Xk=-∞qghX(香港)-qghY(香港), (19) 这里是一个合适的带宽,ghX(x)=TPTt=11(bxhch≤ Xt<(bxhc+1)h)是一个密度直方图,用于估计pdf gXfrom(Xt)Tt=1,T随机变量X的实现∈ V.为了有效地使用dθ及其统计估计值,可以归结为选择θ的特定值。我们在此建议一种探索性方法,其中一种方法可以测试(i)分布信息(θ=0),(ii)依赖信息(θ=1),以及(iii)两种信息的混合(θ=0.5)。理想情况下,θ应反映数据中依赖性和分布信息的平衡。在有监督的环境中,人们可以选择正确平衡θ的估计值?通过交叉验证等技术优化损失函数。然而,由于缺乏明确的损失函数,θ的估计?在无人监督的环境中很难做到。对于聚类,许多作者[26]、[41]、[42]、[34]建议将稳定性作为参数选择的工具。关于金融时间序列聚类193.2如何将该方法扩展到N个多元时间序列?我们现在感兴趣的是对由多个时间序列描述的N个资产进行聚类。虽然一只股票通常用一个时间序列来描述,但它的市场价格和其他资产(如信用违约掉期)可以用几个到期日及其期限结构来描述。实际上,CDS期限结构时间序列是一个5变量的时间序列。在每个时间t,它包括不同交易到期日的d=5价格:1年、3年、5年、7年、10年。我们认为,在机器学习文献[53,43,12]中,还没有对每个对象由几个时间序列描述的情况进行彻底探讨。我们建议开发一种基于几何的方法来解决这个聚类问题。
|