楼主: 可人4
843 26

[量化金融] 癌症外显子组突变簇 [推广有奖]

11
可人4 在职认证  发表于 2022-6-13 23:15:24
相反,对技术细节感兴趣的读者应该与【Kakushadze和Yu,2017b】一起阅读本文。它还确定了聚类K的数量:它通过基于ERANK的方法确定了聚类K的目标数量(见fn.11);然后是簇的最终数目K≤ Kfollows通过机器学习。肝癌是一种聚类效果不佳的癌症类型,这与[Kakushadze和Yu,2016b]的结果完全一致,并且是预期的结果。特别是,我们在【Kakushadze和Yu,2016b】中发现的肝癌主要的(贡献率为96%)基于NMF的癌症特征没有“峰值”(“起伏的丘陵景观”),与集群子结构没有相似之处。在这方面,请注意我们在fn中的评论。12.2*K-means在【Kakushadze和Yu,2017b】中,通过扩展之前【Kakushadze和Yu,2016a】在定量金融方面使用聚类算法构建统计行业分类的工作,我们开发了一种称为*K-means(“斯塔克均值”)的聚类方法,并将其应用于从基因组数据中提取癌症特征*Kmeans将标准的k-means算法作为其基本构建块。然而,k-means不是确定性的*K-means在统计上具有确定性,没有指定初始中心等。这是通过位于K-means顶部的两个机器学习级别实现的。在第一级,我们通过一个非平凡的聚合过程,聚合了大量具有随机初始化中心的k均值聚类(以及使用数据库固定的目标聚类的数量),详情参见【Kakushadze和Yu,2017b】。这种聚合是基于在M个集群中产生的中心的聚类(同样,使用k-means),因此得到的聚合聚类是不确定的。

12
nandehutu2022 在职认证  发表于 2022-6-13 23:15:27
然而,它的不确定性比普通的k均值聚类要小得多,因为聚合显著降低了不确定性的程度。在第二个层次上,我们对大量的此类聚合聚类进行分析,并确定出现次数最大的“最终”聚类(在P个聚合中)。对于足够大的M和P,“最终”聚类是稳定的,也就是说,如果我们反复运行该算法,我们每次都会得到相同的“最终”聚类,即使不同P聚合中的出现计数对于不同聚合是不同的。这里重要的是,最频繁发生的(“最终”)聚合在运行之后保持不变。3实证结果3.1数据总结在本文中,我们对外显子组数据应用*K-均值。我们使用由表1中列出的32种癌症类型汇总的10656个已发布外显子组样本组成的数据,总结了总发生计数、样本数量和数据来源。附录A提供了样本ID和数据源的参考。表2-5.3.1.1数据结构中给出了每种癌症类型96个突变类别的发生计数。基础数据由矩阵[G(s)]iu(s)组成,其元素为i=1,N=96,在u(s)=1,d(s)。这里s=1,n标记n种不同的癌症类型(在我们的病例中,n=32)。我们可以选择使用单个矩阵[G(s)]iu(s),或使用N×dtotSee[Steinhaus,1957],[Lloyd,1957],[Forgy,1965],[MacQueen,1967],[Hartigan,1975],[Hartigan and Wong,1979],[Lloyd,1982]。在【Kakushadze和Yu,2017b】中,我们将其应用于已发布的基因组数据。“大矩阵”Γ通过将矩阵[G(s)]iu(s)按列相加(即自举)得到(因此dtot=Pns=1d(s))。

13
何人来此 在职认证  发表于 2022-6-13 23:15:30
或者,我们可以按癌症类型聚合样本,并使用如此聚合的矩阵xGIS=d(s)Xu(s)=1[G(s)]iu(s)(1)通常,单个矩阵[G(s)]iu(s),因此,“大矩阵”包含大量噪声。对于某些癌症类型,我们可以获得相对较少的样本。我们也可以有“稀疏填充”的数据,即对于某些突变类别有许多零。事实上,不同的样本甚至不一定是统一标准化的。等等。底线是数据有噪音。为了缓解上述问题,继【Kakushadze和Yu,2016b】之后,我们使用了N×N矩阵GIS以及按癌症类型聚合的样本。下面我们将K-均值应用于Gis。3.2外显子组数据结果表2-5中给出的96×32矩阵Gis是我们传递给functionbio的。【Kakushadze和Yu,2017b】附录A中的cl.sigs()作为输入矩阵x。我们使用:iter。max=100(这是内置R函数kmeans()中使用的最大迭代次数–我们注意到,在3000万次kmeans()运行中,没有一个实例需要更多迭代);num.try=1000(这是我们每次聚合的单个k均值抽样数);num.runs=30000(这是我们用来确定“最终”(即最频繁发生的)群集的聚合群集数)。更准确地说,我们以num.runs=10000的方式运行了3个批次作为健全性检查,以确保基于30000个聚合聚类的最终结果与基于较小批次的结果一致,即批次之间的结果是稳定的。根据表6,我们将Clustering-E1确定为“最终”集群(见第2节)。对于聚类-E1,如【Kakushadze和Yu,2017b】中所述,我们基于非正规回归(通过等式(13)、(14)和(15))和正规回归(通过等式)计算withincluster权重。

14
何人来此 在职认证  发表于 2022-6-13 23:15:33
(17) ,第(14)和(16)条),并根据算术平均值计算风险敞口(详情参见【Kakushadzeand Yu,2017b】第2.6小节)。我们在表7和表8中给出了聚类E1无形资产的聚类内权重,并在图1至图11中绘制了非标准化回归的权重,在表9和表10以及图12至图22中绘制了标准化回归的权重。每个簇中的实际突变类别可通过上述表7和表8中的权重(因此,非零权重的突变类别属于agiven簇)或上述图1-11中的横轴标签读取。如果R函数kmeans()未在iter内收敛,则会生成警告。最大值。我们连续运行这3个批次,每个批次产生的前10个(按出现次数)聚类略有不同,各批次的出现次数也不同。然而,聚类-E1总是有最大的出现次数。见表6。很明显,表6中的前10个集群本质上是彼此的变化。3.3重建和相关性3.3.1在集群相关性中,我们有我们的数据矩阵Gis。我们通过以下分解矩阵来近似该矩阵:G*is=KXA=1WiAHAs=wiHQ(i),s(2),其中WIA是簇内权重(i=1,…,N;A=1…,K),有暴露(s=1,…,N=32标记癌症类型),Q:{1,…,N}7→ {1,…,K}是聚类E1中N=96个突变和K=11个簇之间的映射,我们有wia=wiδQ(i),A。

15
kedemingshi 在职认证  发表于 2022-6-13 23:15:37
表7和表8给出了非规范化回归的矩阵WiAthat,表9和表10给出了规范化回归的矩阵WiAthat。我们现在可以计算GIS和G之间的簇横截面相关中的n×K矩阵ΘsAof*isde定义为(xCor(·,·)代表“横截面相关”,即“指数i之间的相关性”),sA=xCor(Gis,G*is)| i∈J(A)=xCor(Gis,wi)| i∈J(A)(3)这里,J(A)={i | Q(i)=A}是由i标记的属于由A标记的agiven簇的突变集。我们在表11中给出了基于非正规回归的权重矩阵Θsaforclustering-E1,在表12中给出了基于正规回归的权重。至于基因组数据【Kakushadze和Yu,2017b】,标准化回归的fit略好于非标准化回归的fit。3.3.2总体相关性我们用作健全性检查的另一个有用指标是。对于s的每个值(即,对于每种癌症类型),我们可以在矩阵WiA上运行GIS的线性横截面回归(无截距)。我们有n=32个回归。每一次回归都会产生多重随机调整的R,我们在表1112中给出了这一结果。此外,我们可以计算固定值bg*基于BG给出的这些回归*is=KXA=1WiAFAs=wiFG(i),s(4),其中(对于s的每个值)fas是回归系数。我们现在可以计算整体横截面相关性(即指数i在所有N=96个突变类别上运行)Ξs=xCor(Gis,bG*is)(5)表11-12中也给出了这些相关性,并衡量了整体fit质量。由于二元聚类结构,簇内权重WiAare编码在N向量wi中。这是因为矩阵中除N个元素外,其余元素均为零。由于因子分解结构(2),这些相关性不直接依赖于HAs。3.3.3解释看看表12,有一些东西跳出来了。

16
能者818 在职认证  发表于 2022-6-13 23:15:40
首先,在32种癌症类型中,有24种类型的癌症与至少一个集群的集群内相关性很高(80%+)。在其他8种癌症类型中,6种具有相当高的(70%+)簇内相关性,至少有一个簇。其余2种癌症类型为X9(宫颈癌)和X17(肝癌)。在【Kakushadze和Yu,2017b】中,基于基因组数据,我们已经观察到肝癌没有聚集结构,所以这并不奇怪。另一方面,宫颈癌的情况似乎更为棘手。根据【COSMIC,2017年】,我们预计COSMIC signaturesCSig2+13和CSig26(更多详情请参见第4节)将出现在宫颈癌中。根据表13(见第4节),CSig2+13确实与X9有很高的相关性(但不是CSig26)。另一方面,CSig2的显性部分(TCA、TCC、TCG、TCT中的C>T突变)包含在簇Cl-10中(见图21),而CSig13的显性部分(TCA、TCC、TCT中的C>G突变)包含在簇Cl-9中(见图20)。基本上,大的(每个都有16个突变类别)簇Cl-9、Cl-10和Cl-11可能会分裂成更小的簇。事实上,Cl-9和Cl-11与任何癌症类型都没有80%以上的相关性(它们与每种癌症类型都有70%以上的相关性)。这是这些集群可能“过大”的另一个迹象。在基因组数据的背景下,【Kakushadze和Yu,2017b】中最大的集群(21个突变类别)也观察到了同样的情况。简单地说,这些“超大”集群可能需要通过适当调整底层集群算法来处理。表12中的最后3列提供了每种癌症类型的总体fit指标。

17
大多数88 在职认证  发表于 2022-6-13 23:15:43
总体相关性(原始数据GIS和模型-设定值BG之间*is–见表12最后一列的第3.3.2)小节,在32种癌症类型中,有16种癌症类型的患病率高于80%,26种癌症类型的患病率高于70%。这些高度相关性表明,这26种癌症类型的原始和构建(模型拟合)数据之间的样本一致性良好。其余6种癌症类型的总体相关性均在60%以上,分别为:X4(B细胞淋巴瘤)、X6(膀胱癌)、X8(乳腺癌)、X9(宫颈癌)、X26(直肠腺癌)和X29(睾丸生殖细胞瘤)。我们已经在上面讨论过宫颈癌。我们在本文第4节讨论乳腺癌。现在,X4数据的填充非常稀疏:有24个样本,计数总数为706,因此底层样本数据中有许多零,尽管聚合数据中只有2个零。根据【COSMIC,2017】,我们应该预计B细胞淋巴瘤中存在CSIG9和CSig17。然而,根据表13(见第4节),这些特征与X4没有很高的相关性。请注意,【Kakushadze和Yu,2017b】中的基因组数据对B细胞淋巴瘤聚类效果良好,但基因组数据填充良好。因此,可以合理地假设,这里的“表现不佳”可能是由于基础数据的稀疏性造成的。对于X6(膀胱癌),情况与上述X9(宫颈癌)类似:这超出了本文的范围,将在其他地方处理。根据【COSMIC,2017】,我们应该预计膀胱癌中的CSig2+13,表13与此一致。然而,如上所述,CSig2和CSIG13分别归入集群Cl-10和Cl-9(“规模过大”)。根据表14,我们应该预计X26中的CSig10。

18
大多数88 在职认证  发表于 2022-6-13 23:15:46
CSig10主要由TCT中的C>突变(属于Cl-9类)和TCG中的C>T突变(属于Cl-10类)控制。同样,这里我们要处理的是这些集群的“规模过大”。X29与簇Cl-4和Cl5具有很高的簇内相关性。与聚类Cl-3的高度负相关明显降低了整体的fit相关性。总而言之,“规模过大”是一个潜在的“缺点”。4结论性意见为了理解我们结果的重要性,让我们将其与宇宙符号为我们的外显子组数据提供的数据进行比较。我们可以通过计算以下p×n横截面相关矩阵来实现αs=xCor(Uiα,Gis)(6),其中Uiα(α=1,…,p)是p=30宇宙特征的权重的N×p矩阵,为简洁起见,我们将其称为CSig1,CSig30。矩阵表13和14中给出了αsis。让我们看看80%以上的相关性(表13和14中以粗体显示)。30个宇宙特征中只有6个,即CSig1、2、6、7、10、15与32种癌症类型的外显子组数据有80%以上的相关性。已知这些特征的病因【COSMIC,2017年】。CSig1是自发的5-甲基胞嘧啶去氨基化引发的内源性突变过程的结果,因此它与许多癌症类型具有高度相关性。CSig2(通常与CSig13同时出现)是由于APOBEC介导的胞嘧啶脱氨作用,因此它与某些癌症类型高度相关。CSig6与DNA错配修复缺陷有关,因此它与几种癌症类型高度相关。CSig7是由于紫外线照射所致,因此它与X19(黑色素瘤)的高度相关性很明显。CSig10与反复出现的错误有关。有关详细信息,请参见【COSMIC,2017】。

19
kedemingshi 在职认证  发表于 2022-6-13 23:15:49
参考文献请参见【Nik Zainal et al,2012a】【Alexandrov etal,2013a】【Alexandrov et al,2013b】【Helleday et al,2014】【Alexandrov and Stratton,2014】。看见http://cancer.sanger.ac.uk/cancergenome/assets/signatures概率。txt;请注意,本文件中突变类别的顺序与我们的不同。将这一比例放宽到70%(见表13和14)不会改变我们下面的结论。然而,这里没有魔法。显然,我们在这里使用的外胚层数据与[宇宙,2017年]使用的外胚层数据有很大的重叠。此外,当涉及任何支配给定癌症类型的基于NMF的特征时,要谨慎。这意味着特征值接近于适当标准化的基本发生计数数据(所有样本的聚集或适当平均),而NMF样本未能找到沿该特定方向与包括该癌症特征值的局部最小值显著不同的局部最小值。这种特征表明相应的癌症类型是“独立”类型,与其他癌症类型几乎没有共同之处。这种特征的一个例子是【Kakushadze和Yu,2016b】中发现的以肝癌为主的NMF为基础的癌症特征。聚合酶极体细胞突变。CSig15与缺陷DNAmismatch维修相关;其与X23(胰腺癌)高度相关的意义尚不清楚。因此,只有少数宇宙特征——都与已知的突变过程有关——在我们的外显子组数据上表现良好。其他人则不太适应。这是【Kakushadze和Yu,2016b】中强调的样本外稳定性问题。它可以追溯到这样一个事实,即NMF是一种本质上不稳定的方法,既不稳定也不稳定。

20
大多数88 在职认证  发表于 2022-6-13 23:15:52
样本内不稳定性与以下事实有关:NMF是不确定的,从一次运行到另一次运行时会产生外观不同的签名。事实上,我们尝试在exome数据上运行NMF。我们运行了3批,每批800个样本,这是一个耗时的计算过程。这3个批次产生了不同的外观结果,通过大量的手工处理,这些结果只能部分匹配到一些宇宙特征,但这3个批次的匹配是不同的,并且高度不稳定。简单地说,NMF未能对我们的外显子组数据产生任何有意义的结果。此外,上述讨论表明,大多数宇宙特征(使用NMF从外显子和基因组数据中提取)显然在样本外是不稳定的,例如,当应用于按癌症类型聚合的外显子组数据时。这里有人可能会争辩说,外显子组数据只包含部分信息,不应在其上使用NMF。然而,基因组特征实际上是基于10952个外显子和1048个全基因组,跨越40种癌症类型【COSMIC,2017年】。不同之处在于,我们正在按癌症类型聚合样本,大多数宇宙特征显然不适用,这意味着宇宙特征是高度样本集特异性的(即样本外不稳定)。此外,如上所述,CSig7(紫外线照射)与X19(黑色素瘤)有99.66%的相关性,因此很受关注。因此,有人认为罪魁祸首不是外显子组数据,而是方法(NMF)本身。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-22 17:35