|
相反,对技术细节感兴趣的读者应该与【Kakushadze和Yu,2017b】一起阅读本文。它还确定了聚类K的数量:它通过基于ERANK的方法确定了聚类K的目标数量(见fn.11);然后是簇的最终数目K≤ Kfollows通过机器学习。肝癌是一种聚类效果不佳的癌症类型,这与[Kakushadze和Yu,2016b]的结果完全一致,并且是预期的结果。特别是,我们在【Kakushadze和Yu,2016b】中发现的肝癌主要的(贡献率为96%)基于NMF的癌症特征没有“峰值”(“起伏的丘陵景观”),与集群子结构没有相似之处。在这方面,请注意我们在fn中的评论。12.2*K-means在【Kakushadze和Yu,2017b】中,通过扩展之前【Kakushadze和Yu,2016a】在定量金融方面使用聚类算法构建统计行业分类的工作,我们开发了一种称为*K-means(“斯塔克均值”)的聚类方法,并将其应用于从基因组数据中提取癌症特征*Kmeans将标准的k-means算法作为其基本构建块。然而,k-means不是确定性的*K-means在统计上具有确定性,没有指定初始中心等。这是通过位于K-means顶部的两个机器学习级别实现的。在第一级,我们通过一个非平凡的聚合过程,聚合了大量具有随机初始化中心的k均值聚类(以及使用数据库固定的目标聚类的数量),详情参见【Kakushadze和Yu,2017b】。这种聚合是基于在M个集群中产生的中心的聚类(同样,使用k-means),因此得到的聚合聚类是不确定的。
|