|
第3节我们讨论了i)我们使用的癌症基因组数据,ii)我们对*K-均值的应用,以及iii)我们的实证结果的解释。第4节包含一些总结,包括对*K-均值在定量金融中的潜在应用的讨论,其中我们概述了*K-均值可能有用的一些具体问题。附录A包含*K-means和集群模型的R源代码。2聚类模型本文的主要目的是介绍一种利用聚类方法识别癌症特征的新方法。事实上,正如我们下面详细讨论的,我们的方法不仅仅是集群。事实上,从get-Got可以明显看出,盲目使用非确定性聚类算法(通常会产生(难以管理的)大量局部最优解)会给最终的癌症特征带来很大的变化。另一方面,确定性算法(如凝聚层次聚类)通常(实质上)较慢,并且需要基本上“猜测”初始聚类,这在实际应用中往往是次优的。因此,为了激励和解释我们采用聚类方法的新方法,我们首先可以说“分解”了NMF方法,并认为它实际上是一种伪装的聚类方法!2.1“分解”NMF当前的“lore”-从发生计数矩阵Gis(见上文)[Alexandrov等人,2013a]中提取K癌症特征的普遍接受的方法-是通过非负矩阵分解(NMF)[Paatero和Tapper,1994年],[Lee和Seung,1999年]。在NMF下,矩阵G通过G近似≈ W H,其中W是权重的N×K矩阵,Has是曝光的K×d矩阵,Wand H均为非负。
|