|
与外显子组数据一样,这里我们也只有少数宇宙特征对应于toknown突变过程,即CSig1,4,6,13,具有很高的相关性。因此,大多数宇宙特征对癌症类型聚集的基因组数据似乎没有解释力,这进一步表明大多数宇宙特征缺乏样本外稳定性。我们从exomedata获得的簇的样本外稳定性如何?检验它的一种方法是查看表12所示的集群内相关性和总体计量,但要查看【Kakushadze和Yu,2016b】和【Kakushadze和Yu,2017b】中使用的14种癌症类型的上述基因组数据。结果见表16。毫不奇怪,基因组数据(样本外)的fit质量不如外显子组数据(样本内)。然而,它是i)合理的,并且ii)明显优于宇宙签名提供的fit(表15)。此外,基于外显子组的11个簇对于G.X4(乳腺癌)、G.X8(肝癌)、G.X9(肺癌)和G.X14(肾细胞癌)的总体fit较差,而基于基因组的7个簇在相同的4种癌症类型中【Kakushadze和Yu,2017b】的总体fit较差,这也是一个很好的理由(详情参见【Kakushadze和Yu,2017b】。考虑到基于外显子组数据(X15,表12)和基因组数据(Kakushadze和Yu,2017b)的第7行,表15)的这种癌症类型的样本中,不太清楚为什么基于外显子组的11个簇没有更好的G.X7(胃癌)基因。因此,与NMF不同,*K-means聚类作为一种统计确定性方法,在样本中是稳定的。
|