楼主: nandehutu2022
1212 23

[量化金融] 癌症外显子组突变簇 [推广有奖]

21
何人来此 在职认证  发表于 2022-6-23 16:38:49
为了量化这一点,让我们看看宇宙特征与【Kakushadze and Yu,2016b】和【Kakushadze and Yu,其与X26(直肠腺癌)和X32(子宫癌)的高度相关性】中使用的14种癌症类型的基因组数据的相关性,这与【COSMIC,2017】是一致的,而且显然是由于我们在此使用的外显子组数据与【COSMIC,2017】使用的外显子组数据之间存在很大的重叠。请注意,通过运行整体回归(无截距的Gisover Uiα)来考虑宇宙特征的整体fit质量,正如我们在上文中对集群所做的那样,这是没有意义的。集群情况下的回归系数FAsin(4)保证为非负。这是因为与簇权重矩阵中的列相对应的N个向量彼此是WiAareorthogonal。与宇宙权重矩阵Uiα中的列相对应的N向量不是正交的,不可接受地导致了许多负回归系数Fαs。因此,要在4-CPU(每个8核,2.60GHz)机器上运行一批NMF,800次采样,529Gb RAM和超线程(操作系统:Debian 3.2.84-2 x86 64GNU/Linux),这需要6-7天的时间(输入数据在【Kakushadze和Yu,2016b】之后“去噪”需要3-4天)。相比之下,要在每批中使用1000万个K-means实例来运行我们的3批*K-means(见第3.2小节),在一台具有16GB RAM(操作系统:64位Windows Server 2008 R2标准)的单CPU(四核,3.1GHz)机器上只需不到24小时。从这些数据可以明显看出,即使通过“去噪”改善了NMF,*K-均值在计算上比NMF便宜很多【Kakushadze和Yu,2016b】。此外,参见,例如,【Schulze等人,2015年】。尽管人们应该记住fn中的评论。28.2017b]。结果见表15。

22
何人来此 在职认证  发表于 2022-6-23 16:38:52
与外显子组数据一样,这里我们也只有少数宇宙特征对应于toknown突变过程,即CSig1,4,6,13,具有很高的相关性。因此,大多数宇宙特征对癌症类型聚集的基因组数据似乎没有解释力,这进一步表明大多数宇宙特征缺乏样本外稳定性。我们从exomedata获得的簇的样本外稳定性如何?检验它的一种方法是查看表12所示的集群内相关性和总体计量,但要查看【Kakushadze和Yu,2016b】和【Kakushadze和Yu,2017b】中使用的14种癌症类型的上述基因组数据。结果见表16。毫不奇怪,基因组数据(样本外)的fit质量不如外显子组数据(样本内)。然而,它是i)合理的,并且ii)明显优于宇宙签名提供的fit(表15)。此外,基于外显子组的11个簇对于G.X4(乳腺癌)、G.X8(肝癌)、G.X9(肺癌)和G.X14(肾细胞癌)的总体fit较差,而基于基因组的7个簇在相同的4种癌症类型中【Kakushadze和Yu,2017b】的总体fit较差,这也是一个很好的理由(详情参见【Kakushadze和Yu,2017b】。考虑到基于外显子组数据(X15,表12)和基因组数据(Kakushadze和Yu,2017b)的第7行,表15)的这种癌症类型的样本中,不太清楚为什么基于外显子组的11个簇没有更好的G.X7(胃癌)基因。因此,与NMF不同,*K-means聚类作为一种统计确定性方法,在样本中是稳定的。

23
可人4 在职认证  发表于 2022-6-23 16:38:55
在这里,我们可以问,如果我们将相同的2个机器学习级别应用于NMF,就像那些位于k-means中的k-means之上的级别一样,使其具有统计确定性,会怎么样?答案是,在应用NMF时,人们已经使用了一种机器学习方法,这是大量样本的聚合形式(即单个NMF运行)。这在概念上类似于K-means中的FirstMachine学习水平。那么,我们可以问,如果我们通过比较大量这样的“平均值”,将第二个机器学习水平(如K-means)增加到NMF,会怎么样?一个简单、平淡无奇的答案是,这将使NMF计算变得令人望而却步,因为NMF在计算上已经很昂贵了,而且在第一台机器的学习水平上更是如此。K-means在计算上要便宜得多的原因是,K-means的基本构造块(在上面我们添加了两种机器学习方法)是普通的K-means,它比NMF便宜得多。这就是造成所有差异的原因。最后,让我们提到慢性髓系疾病的外显子组数据(121个样本,175个总计数)发表在【Papaemmanuil et al,2011】【Malcovati et al,因此,如上所述,我们运行了3批800个NMF样本。在每批中,800个样本通过非确定性聚类聚合(例如,通过k-means–参见,例如,【Kakushadzeand Yu,2017b】以获取详细讨论)。最终结果——按设计——是不确定的。此外,正如【Kakushadze和Yu,2017b】所述,NMF至少在某种程度上是伪装成集群的。事实上,对宇宙特征的目视检查表明,其中许多——尽管可能不是全部——都有群集子结构。这将在下一篇论文中进行更详细的讨论。

24
nandehutu2022 在职认证  发表于 2022-6-23 16:38:59
此外,了解“R-突变”【Tomasetti等人,2017年】(另见其中的参考文献)与体细胞突变噪声之间的关系也很有趣。2011年),神经母细胞瘤(13个样本,298个总计数)[Sausen等人,2013年]。然而,这些数据非常稀少(即使在聚合后也有太多的零),因此我们明确将其排除在分析之外。对于我们在此分析的癌症类型以及其他癌症类型,还有更多未公布的数据可用,将我们的方法应用于这些数据,包括国际癌症基因组联盟(仍然禁止)的广泛基因组数据,将是非常有趣的。确认此处发布的结果全部或部分基于TCGA研究网络生成的数据:http://cancergenome.nih.gov/.AExome样本ID在本附录中,我们给出了样本ID以及我们使用的Exome数据的相应发布参考。我们将这些引用标记为H1、Z1等,并在源列的表1中使用这些标签。 急性淋巴细胞白血病(86份样本):o来源H1=【Holmfeldt等人,2013年】。样本ID的格式为SJHYPO*,其中*:001-D、002-D、004-D、005-D、006-D、009-D、009-R、012-D、013-D、014-D、016-D、019-D、020-D、022-D、024-D、026-D、029-D、032-D、036-D、037-D、039-D、040-D、041-D、042-D、044-D、045-D、046-D,047-D,051-D,052-D,052-R,055-D,056-D,116-D,117-D,119-D,120-D,123-D,124-D,125-D,126-D.o来源Z1=【Zhang等人,2012年】。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-29 12:31