楼主: kedemingshi
1918 63

[量化金融] *癌症特征的K-均值和聚类模型 [推广有奖]

31
mingdashike22 在职认证  发表于 2022-5-31 05:27:33
在我们使用n=14的数据中,聚合矩阵GIS比“大矩阵”小得多,我们准备将上述机制应用于它。3.2基因组数据结果表2和表3中给出的96×14矩阵GIS是我们传递给functionbio的。附录A中的cl.sigs()作为输入矩阵x。我们使用:iter。max=100(这是内置R函数kmeans()中使用的最大迭代次数–请注意,在1.5亿次kmeans()运行中,没有一个实例需要更多迭代);num.try=1000(这是我们每次聚合的individualk表示采样数);而num.runs=150000(这是我们用来确定“最终”(即最频繁发生的)聚类的聚合聚类数)。所以,我们运行了k-means 1.5亿次。更准确地说,我们以num.runs=10000的数量运行了15个批次作为健全性检查,以确保基于150000个聚合聚类的最终结果与基于较小批次的结果一致,即,其在样本中是稳定的。根据表4,我们将集群A确定为“最终”集群(参见集群B/C/D)。如果R函数kmeans()未在iter内收敛,则会生成警告。最多,我们连续运行这15个批次,每个批次产生与表4中相同的前10个(按发生计数)聚类;然而,各批次的实际发生次数不同,相应排名略有差异。结果令人满意地稳定。我们使用基于算术平均值(见第2.6小节)计算的风险敞口的非规范化和规范化回归(见表5、6、7、8、9、10、11、12和图2至55),给出了聚类A、聚类B、聚类C和聚类D的权重。

32
nandehutu2022 在职认证  发表于 2022-5-31 05:27:37
我们使用基于几何平均数(见第2.6小节)计算的风险敞口的非规范化回归和规范化回归,在表13、14和图56至69中给出了聚类-A的权重。对于给定的聚类,每个聚类中的实际突变类别可以通过上述表格和权重(非零权重的突变类别属于给定的聚类)读取,也可以从上述图中的横轴标签读取。很明显,聚类A、聚类B、聚类C和聚类D本质上是相互变化的(聚类D只有6个聚类,而其他3个有7个聚类)。3.3重构和相关性因此,基于基因组数据,我们构建了聚类和权重。他们能行吗?一、 例如,他们是否能很好地重建输入数据?从get-Got可以明显看出,这个问题的答案可能不是二进制的,因为对于某些癌症类型,我们可能有一个很好的聚类结构,而对于其他癌症类型,我们可能没有。以下练习的目的是解决这一切。相关性来了。。。3.3.1在集群相关性中,我们有降噪矩阵Gis。我们通过以下分解矩阵来近似该矩阵:G*is=KXA=1WiAHAs=wiHG(i),s(22)我们现在可以计算GIS和G之间的簇内横截面相关性的n×K矩阵ΘsAof*isde定义为(xCor(·,·)代表“横截面相关性”,以区别于我们上面使用的“序列相关性”Cor(·,·),ΘsA=xCor(Gis,G*is)| i∈J(A)=xCor(Gis,wi)| i∈J(A)(23)我们在表15中给出了聚类矩阵-A,使用基于算术平均数计算的风险敞口归一化回归(见第2.6小节)进行权重计算。让我们提到,对于基于算术平均数的风险敞口,使用标准化回归的权重比使用非标准化回归的效果要好一些。

33
何人来此 在职认证  发表于 2022-5-31 05:27:41
使用基于几何平均数的曝光会稍微改变权重,这反过来会轻微影响簇内相关性,但不会改变定性图片。降噪本身不会影响横截面相关性。在(3)中添加额外的1(重新定义我们获得的Gisby横截面贬低Xisand,然后重新指数化)有一个可忽略的影响。因此,在下面的相关性中,我们可以使用原始数据矩阵Gis而不是Gis。由于因子分解结构(22),这些相关性不直接依赖于HAs。3.3.2总体相关性我们用作健全性检查的另一个有用指标是。对于s的每个值(即,对于每种癌症类型),我们可以在矩阵WiA上运行GIS的线性横截面回归(无截距)。我们有n=14个回归。每一次回归都会产生多重随机调整的R,我们在表15中给出。此外,我们可以计算固定值bg*基于BG给出的这些回归*is=KXA=1WiAFAs=wiFG(i),s(24),其中(对于s的每个值)fas是回归系数。我们现在可以计算整体横截面相关性(即指数i在所有N=96个突变类别上运行)Ξs=xCor(Gis,bG*is)(25)表15中也给出了这些相关性,并衡量了整体fit质量。3.3.3解释查看表15,一些事情立即变得显而易见。我们在这里研究的14种癌症类型中,有10种聚类效果很好。聚类法似乎对乳腺癌(表15中的X4标记)、肝癌(X8)、肺癌(X9)和肾细胞癌(X14)的癌症类型没有起到很好的作用。更准确地说,对于乳腺癌而言,我们确实有很高的Cl-5(以及Cl-4)簇内相关性,但由于其他簇内相关性较低,整体效果并不显著。

34
nandehutu2022 在职认证  发表于 2022-5-31 05:27:44
此外,超过80%的簇内相关性出现在5个簇中,即Cl-1、Cl-3、Cl-4、Cl-5和Cl-6,但不适用于Cl-2或Cl-7。此外,值得注意的是,Cl-1对于9种癌症类型具有高度的簇内相关性,Cl-5对于6种癌症类型具有高度的簇内相关性。这些似乎是主要的集群。它们在11种癌症类型中具有高度的簇内相关性。那么这一切意味着什么呢?通过观察【Kakushadze和Yu,2016b】中提取的7种癌症特征与我们在这里发现的聚类之间的聚类内相关性,可以提供更多的见解。设Wiα为【Kakushadze和Yu,2016b】表13和14中7种癌症特征的权重。我们可以计算以下簇内相关性(α=1,…,7标记癌症特征【Kakushadzeand Yu,2016b】,我们称之为Sig1至Sig7):αA=xCor(Wiα,WiA)| i∈J(A)(26)表16给出了这些相关性。Cl-1(含Sig1和Sig7)、Cl-5(含Sig2)和Cl-6(含Sig4)的簇内相关性较高。这很有道理。事实上,从[Kakushadze和80%cuto ff]的图14到图20来看,这有点武断,但很合理。Yu,2016b],Sig1、Sig2、Sig4和Sig7正是具有“峰值”(或“尖峰”-“高山景观”)的癌症特征,而Sig3、Sig5和Sig6没有此类“峰值”(“fl at”或“起伏的丘陵景观”)。难怪这些信号没有很高的簇内相关性——它们根本没有簇状结构。看看[Kakushadze和Yu,2016b]中的图21,很明显为什么聚类不能很好地治疗肝癌(X8)——它对Sig5的贡献率高达96%!同样,肾细胞癌(X14)的70%来自Sig6。肺癌(X9)以Sig3为主,因此无簇状结构。

35
能者818 在职认证  发表于 2022-5-31 05:27:47
最后,乳腺癌(X4)以Sig2为主,Sig2与Cl-5具有很高的簇内相关性,这就是为什么乳腺癌与Cl-5具有很高的簇内相关性(但表15中的总体相关性较差)。所以,这一切都有道理。问题是,这一切告诉我们关于癌症特征的什么?很多它告诉我们,肝癌、肺癌和肾细胞癌等癌症与其他癌症(以及彼此)几乎没有共同之处!至少控制这类癌症基因组结构的突变类别的水平。另一方面,9种癌症,即骨癌(X2)、脑低级别胶质瘤(X3)、慢性淋巴细胞白血病(X5)、食管癌(X6)、胃癌(X7)、髓母细胞瘤(X10)、卵巢癌(X11)、胰腺癌(X12)和前列腺癌(X13),显然都实质上嵌入了Cl-1簇结构。类似地,6种癌症,即B细胞淋巴瘤(X1)、乳腺癌(X4)、食管癌(X6)、卵巢癌(X11)、胰腺癌(X12)和前列腺癌(X13),显然都具有基本上嵌入的Cl-5簇结构。此外,请注意这两个列表之间的重叠,即食管癌(X6)、卵巢癌(X11)、胰腺癌(X12)和前列腺癌(X13)。我们使用我们的聚类算法和其他统计方法(如线性回归)获得实际权重,在没有生物输入的情况下,纯统计地获得了这个结果。

36
何人来此 在职认证  发表于 2022-5-31 05:27:50
现在就知道这一见解是否有助于任何治疗应用还为时过早,但这就是希望——不同癌症类型的基本基因组结构的相似性使人们希望一种癌症类型的治疗方法可能适用于其他癌症类型。另一方面,我们上述与肝癌、肺癌和肾细胞癌(也可能是乳腺癌,尽管后者似乎与Cl-5有着不太明显的重叠,而Cl-5与上述3种癌症类型不同)相关的发现表明,这些癌症类型明显突出。4结论性评论聚类思想和技术已广泛应用于各种化身和背景下的癌症研究中,有关至少在某种程度上与我们在此讨论相关的部分作品列表,请参见,例如,[陈等人,2008a],[陈等人,2008b],[卡舒巴等人,2009],[尼科·扎纳尔等人,2012],[罗伯茨等人,2012],[亚历山德罗夫等人,2013a],[亚历山德罗夫等人,2013b],【Burns等人,2013a】【Burns等人,2013b】【Lawrencet等人,2013】【Long等人,2013】【Roberts等人,2013】【Taylor等人,2013】【Xuan等人,2013】【Alexandrov and Stratton,2014】【Bacolla等人,2014】【Bolli等人,2014】【Cavalr等人,2014】【Davis等人,2014】【Helleday等人,2014】【Nik Zainal等人,2014】【Poon等人,2014】【Qian等人,2014】【Roberts和Gordenin,2014a】,【Roberts和Gordenin,2014b】【Roberts和Gordenin,2014c】【Sima和Gilbert,2014】【Chan和Gordenin,2015】【Pettersen等人,2015】以及其中的参考文献。如上所述,即使在NMF中,也会在某些层(可能不太明显)使用聚类。

37
何人来此 在职认证  发表于 2022-5-31 05:27:53
我们的方法的新之处以及由此产生的新结果是:i)继【Kakushadze和Yu,2016b】之后,我们将聚类应用于按癌症类型和去噪数据进行聚合;ii)我们使用了[Kakushadze和Yu,2016c]提供的一套经过尝试和测试的定量融资技巧,这改进了聚类;最后但并非最不重要的是,我们将我们的K均值算法应用于癌症基因组数据。如上所述,*Kmeans不同于普通的k-means或其其他常用变体,本质上是确定性的,它在统计上实现了确定性,而不是通过“猜测”初始中心,或在凝聚层次聚类中,基本上是“猜测”初始(如2-聚类)聚类。相反,通过聚合大量k均值聚类和对此类聚合发生次数的统计检查,*k均值将大量普通k均值聚类弄得一团糟,系统地减少随机性和不确定性,而无需特别的初始“猜测”。如上所述,与【Kakushadze和Yu,2016b】通过改进NMF技术获得的结果一致,肝癌、肺癌和肾细胞癌似乎没有聚集(子)结构。这可能是好消息,也可能是坏消息。这是一个好消息,因为我们从这两种癌症类型中学到了一些有趣的东西——而且有两种互补的方式。然而,从治疗的角度来看,这也可能是一个坏消息。由于这些癌症类型似乎与其他癌症类型几乎没有共同之处,因此它们可能需要专门的治疗。另一方面,我们应该注意到,在进行聚类分析时,排除这3种癌症类型是有意义的。然而,通过利用国际癌症基因组皮层数据来纳入其他癌症类型也是有意义的,我们将这些数据留给未来的研究。

38
mingdashike22 在职认证  发表于 2022-5-31 05:27:56
(出于比较原因,此处我们使用的数据与【Kakushadze和Yu,2016b】中的数据相同,仅限于截至发布日期发布的数据样本。)这篇论文的目的不是做一个详尽的实证研究,而是为了证明概念,并为提取和研究NMF提供的工具之外的癌症特征开辟一条新途径。我们确实发现,我们在这里研究的14种癌症类型中,有11种基本上嵌入了聚类结构,而且聚类总体上对这11种癌症类型中的至少10种有效。现在,查看【Kakushadzeand Yu,2016b】的图14,我们可以看到其“峰值”位于ACGT、CCGT、GCGT和TCGT。相同的“峰值”出现在我们的簇Cl-1中(见图2和图3)。因此Cl-1和Sig1之间的簇内相关性较高。另一方面,乳腺癌可能是个例外。如上所述,将肝癌、肺癌和肾细胞癌排除在分析之外是有意义的,这可能会影响聚类对乳腺癌以及其他10种癌症的效果。[Kakushadze和Yu,2016b]的Sig1与[Nik Zainal et al,2012],[Alexandrov et al,2013b]的突变特征码1基本相同,这是由于胞嘧啶的自发脱氨作用。这就是我们的集群Cl-1所描述的。接下来,查看【Kakushadze和Yu,2016b】的图15,我们发现其“峰值”位于TCAG、TCTG、TCAT和TCTT。前两个“峰值”TCA和TCTG出现在我们的Cl-5中(见图10和11),第三个“峰值”TCAT出现在我们的Cl-1中(见图2和3),而第四个“峰值”TCTT出现在我们的Cl-4中(见图8和9),这与Sig2、Cl-4和Cl-5之间的高簇内相关性一致,尽管其与Cl-1的簇内相关性很差。

39
何人来此 在职认证  发表于 2022-5-31 05:27:59
请注意,【Kakushadze和Yu,2016b】的Sig2与【Nik Zainal等人,2012年】【Alexandrov等人,2013b】的突变特征2+13基本相同,这是由于APOBEC介导的胞嘧啶脱氨作用所致。事实上,在【Alexandrov等人,2013b】中,它被报告为一个单一的签名,然而,随后,它被分为两个不同的签名,通常出现在相同的样本中。我们的聚类结果表明,将TCAG和TCTG分组到一个签名中会有意义,因为它们属于同一个聚类Cl-5。然而,将TCAT和TCTT分组在一起似乎没有多大意义。查看聚类A、聚类B、聚类C和聚类D的图,我们发现TCAT“峰值”总是与ACGT、CCGT、GCGT和TCGT“峰值”一起出现,如聚类A中的Cl-1、聚类B中的Cl-2、聚类C中的Cl-1和聚类D中的Cl-1,但与TCTT无关。因此,我们的聚类方法告诉我们一些超越NMF“直觉”的新东西。这可能对乳腺癌有重要意义,如上所述,乳腺癌以Sig2为主。因此,根据表15中的结果,我们发现乳腺癌与Cl-4和Cl-5具有高度的集群内相关性,但与Cl-1没有相关性。这可能意味着聚类对乳腺癌根本不起作用,乳腺癌似乎与肝癌、肺癌和肾细胞癌处于同一个“独立”联盟中。无论如何,聚类总是表明TCAT“峰”属于Cl-1,其中4个“峰”ACGT、CCGT、GCGT和TCGT与自发胞嘧啶脱氨基有关,而不是与APOBEC介导的胞嘧啶脱氨基有关。现在,让我们检查【Kakushadze和Yu,2016b】的其余两个签名,即“高山景观”(见上文),即Sig4和Sig7。

40
大多数88 在职认证  发表于 2022-5-31 05:28:02
查看【Kakushadze和Yu,2016b】的图17,我们发现其“峰值”位于CTTC、TTTC、CTTG和TTTG。同样的峰值出现在Cl-6中(见图12和13)。因此,Cl-6和Sig4之间的簇内相关性较高。注意,Sig4本质上与【Nik Zainal等人,2012】【Alexandrov等人,2013b】的突变特征17相同,其潜在的突变过程未知。接下来,查看【Kakushadze和Yu,2016b】的图20,我们发现C>G突变的“峰值”与Cl-1中的“峰值”基本相同。因此,Cl-7和Sig1之间具有高度的包容性相关性。因此,Sig1、sig4和Sig7没有什么意外。然而,根据我们的聚类结果,如上所述,关于SIG2的详细评论,请参见http://cancer.sanger.ac.uk/cosmic/signatures.we我们感到惊喜的是,将其分成两个信号(见上文)可能不够充分,TCAT“峰”可能真的属于Sig1“峰”(自发v.APOBEC介导的胞嘧啶脱氨)。这很令人兴奋,因为它可能表明了NMF(或集群…)的局限性。在导言中,我们承诺将讨论*K-均值在定量金融中的一些潜在应用,现在就是这样。我们要提到的是,K-均值是通用的,不受输入数据的影响,适用于各种领域。在定量金融中,K-均值先验可以应用于任何使用聚类方法的地方,并增加了(统计)确定性。一个明显的例子是[Kakushadze和Yu,2016c]中讨论的统计行业分类,其中使用聚类方法对股票进行分类。事实上,*K-均值是【Kakushadze和Yu,2016c】中讨论的方法的扩展。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-2 05:13