|
[40].使用该模型,我们在两个层次的块相关示例上演示了聚类:a.)图(4a)中的250只股票的聚类的相关矩阵,图(4a)中的5个层次(每个层次50只股票),和b.)系统的相关矩阵,图(4b)中的3个聚类的估计时间序列为250个观测值(即1个交易年),α=0.4(如图(4b))。与我们的玩具模型不同,真实的相关矩阵不太可能以一种可以揭示其块结构的方式进行静态排序,这将使聚类变得平凡。使用单链接算法创建的图(4c)和(4d)中的树状图揭示了图(4a)和(4b)中相关矩阵中存在的层次结构。乍一看,通过有序相关矩阵可以区分图(4c)和(4a)中的5个层次。然而,在包含这些嵌套簇集的倍数的系统中,表观结构是具有潜在子簇的3个簇的结构。这里的关键问题是,由ALC和HDBSC产生的解决方案是否包含子簇或大簇;i、 e.图(4a)中的数据分析结果是否包含1个或5个聚类,以及图(4b)中的那些、3个或15个聚类?为了回答这个问题,我们对这两个数据集进行了若干α值的聚类,以研究低相关性和间接低聚类密度对算法输出的影响。我们发现,对于低α,时间序列主要受这些因素的影响,对于图(4a)和(4b)中的数据,HDBSCAN和ALC都分别恢复了5个和15个簇。HDBSCAN的噪声影响更大,算法开始将α>0.2(见图(6))生成的数据集的观测值添加到图(4a)中数据的“噪声”类别中。而ALC生成的溶液开始从α>0.4降解。数据inFig也是如此。
|