楼主: 大多数88
327 26

[量化金融] 癌症外显子组突变簇 [推广有奖]

  • 0关注
  • 3粉丝

会员

学术权威

67%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
64.4541
学术水平
0 点
热心指数
4 点
信用等级
0 点
经验
23324 点
帖子
3819
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Mutation Clusters from Cancer Exome》
---
作者:
Zura Kakushadze and Willie Yu
---
最新提交年份:
2017
---
英文摘要:
  We apply our statistically deterministic machine learning/clustering algorithm *K-means (recently developed in https://ssrn.com/abstract=2908286) to 10,656 published exome samples for 32 cancer types. A majority of cancer types exhibit mutation clustering structure. Our results are in-sample stable. They are also out-of-sample stable when applied to 1,389 published genome samples across 14 cancer types. In contrast, we find in- and out-of-sample instabilities in cancer signatures extracted from exome samples via nonnegative matrix factorization (NMF), a computationally costly and non-deterministic method. Extracting stable mutation structures from exome data could have important implications for speed and cost, which are critical for early-stage cancer diagnostics such as novel blood-test methods currently in development.
---
中文摘要:
我们应用统计确定性机器学习/聚类算法*K-means(最近在https://ssrn.com/abstract=2908286)至10656份已发表的32种癌症类型的外显子组样本。大多数癌症类型表现出突变聚类结构。我们的结果在样本中是稳定的。当应用于14种癌症类型的1389个已发表的基因组样本时,它们也是样本外稳定的。相反,我们发现通过非负矩阵因式分解(NMF)从外显子组样本中提取的癌症特征存在样本内和样本外不稳定性,这是一种计算成本高且不确定的方法。从外显子组数据中提取稳定的突变结构可能会对速度和成本产生重要影响,这对于早期癌症诊断至关重要,例如目前正在开发的新型血液检测方法。
---
分类信息:

一级分类:Quantitative Biology        数量生物学
二级分类:Genomics        基因组学
分类描述:DNA sequencing and assembly; gene and motif finding; RNA editing and alternative splicing; genomic structure and processes (replication, transcription, methylation, etc); mutational processes.
DNA测序与组装;基因和基序的发现;RNA编辑和选择性剪接;基因组结构和过程(复制、转录、甲基化等);突变过程。
--
一级分类:Quantitative Biology        数量生物学
二级分类:Quantitative Methods        定量方法
分类描述:All experimental, numerical, statistical and mathematical contributions of value to biology
对生物学价值的所有实验、数值、统计和数学贡献
--
一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--

---
PDF下载:
--> Mutation_Clusters_from_Cancer_Exome.pdf (654.9 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Quantitative Econophysics Contribution Mathematical Applications

沙发
nandehutu2022 在职认证  发表于 2022-6-6 15:20:52 |只看作者 |坛友微信交流群
癌症ExomeZura Kakushadze§+1和Willie Yu]2§QuantigicrSolutions LLC1127 High Ridge Road#135,Stamford,CT 06905+第比利斯自由大学商学院和物理学院240,David Agmashenebeli Alley,第比利斯,0159,乔治亚州]计算生物学中心,杜克·努斯医学院8 College Road,新加坡169857(2017年3月31日)摘要我们应用统计确定性机器学习/聚类算法*K-means(最近在https://ssrn.com/abstract=2908286)至10656份已发表的32种癌症类型的外显子组样本。大多数癌症类型表现出突变聚类结构。我们的结果在样本中是稳定的。当应用于14种癌症类型的1389个已发表的基因组样本时,它们也是样本外稳定的。相比之下,我们通过非负矩阵分解(NMF)从外显子组样本中提取的癌症特征中发现了样本内和样本外的不稳定性,这是一种计算成本高且不确定性的方法。从外显子组数据中提取稳定的突变结构可能会对速度和成本产生重要影响,这对于早期癌症诊断至关重要,例如目前正在开发的新型血液检测方法。关键词:聚类、K均值、非负矩阵分解、体细胞突变、癌症特征、基因组、外显子组、DNA、eRank、相关性、协方差、机器学习、样本、矩阵、源代码、定量金融、统计风险模型、行业分类Zura Kakushadze博士是Quantigicrolutions LLC的总裁,也是第比利斯自由大学的全职教授。电子邮件:zura@quantigic.comWillie余博士是杜克国立大学医学院的研究员。电子邮件:willie。yu@dukenus.edu.sgDISCLAIMER:通讯作者使用此地址的目的仅是按照出版物惯例表明其专业职责。

使用道具

藤椅
kedemingshi 在职认证  发表于 2022-6-6 15:20:55 |只看作者 |坛友微信交流群
特别是,本文件的内容并非投资、法律、税务或任何其他此类建议,也不代表QuantigicSolutions LLC(网站www.quantigic)的观点。com或其任何附属公司。1简介和总结除非人类找到治愈方法,否则今天大约有10亿人将死于癌症。与其他疾病不同,癌症是通过基因组中的体细胞改变在DNA水平发生的。在癌症中发现的这种突变的一种常见类型是由于基因组中单个碱基的改变(单核苷酸变异或SNV)。这些改变是通过各种突变过程在个体的整个生命周期内累积的,例如细胞分裂过程中的不完全DNA复制或自发的胞嘧啶脱氨基作用【Goodman和Fygenson,1998】【Lindahl,1993】,或由于暴露于化学损伤或紫外线辐射【Loeb和Harris,2008】【Ananthaswamy和Piercall,1990】,这些突变在癌症基因组中留下的足迹以独特的改变模式为特征,称为癌症特征。识别所有癌症特征将极大地促进了解癌症起源及其发展的进展。在治疗上,如果不同癌症类型之间存在共同的基础结构,那么一种癌症类型的治疗可能适用于其他癌症类型,这将是一个好消息。从诊断角度来看,识别所有潜在的癌症特征将有助于癌症检测和识别方法,包括重要的早期检测——根据美国癌症协会的数据,未知来源的晚期转移性癌症约占所有癌症的2%【ACS,2017年】,几乎不可能进行治疗。

使用道具

板凳
大多数88 在职认证  发表于 2022-6-6 15:20:58 |只看作者 |坛友微信交流群
另一个实际应用是通过将从癌症样本中提取的特征与已知致癌物(例如,烟草、毒素、紫外线辐射等)引起的特征配对进行预防。归根结底,这一切都归结为有用性的问题:所有(100多个)已知癌症类型背后的癌症特征是否足够少,或者这个数字是否太大而没有意义/有用?因此,如果我们关注96种SNV突变类型,我们不能拥有超过96个特征码。即使真正的底层签名的数量是,比如说,50阶,也不清楚它们是否有用,特别是在实际应用中。另一方面,如果只有十几个潜在的癌症特征,那么就有希望简化一个数量级。提取癌症特征的常用方法【Alexandrov等人,2013a】基于非负矩阵分解(NMF)[Paatero和Tapper,1994年],【Lee和Seung,1999年】。因此,我们分析了DNASee队列中的SNV模式,例如,【Cho等人,2014年】。Grail,Inc.\'srecent的目标是早期检测(通过血液检测)~$1B轮B系列融资——参见,例如,【纳斯达克环球电讯报,2017年】。简言之,DNA是由两条链组成的双螺旋,每条链是一串字母a、C、G、T,分别对应腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶。在双螺旋中,一条链中的A总是与另一条链中的T结合,而G总是与C结合。这就是已知的碱基互补性。因此,有六种可能的碱基突变C>A、C>G、C>T、T>A、T>C、T>G,而其他六种碱基突变通过碱基互补性与这些碱基突变相当。这6个可能的碱基突变中的每一个都由每个侧的4个可能碱基组成,从而产生4×6×4=96个不同的突变类别。先验地,非线性可能会改变这一结论。

使用道具

报纸
kedemingshi 在职认证  发表于 2022-6-6 15:21:01 |只看作者 |坛友微信交流群
然而,这种非线性也可能导致癌症特征基本上无用。。。对整个癌症基因组进行测序,并将数据组织到矩阵Giu中,其中行对应于N=96个突变类别,列对应于tod样本,每个元素是给定样本中给定突变类别的非负发生计数。在NMF下,矩阵G通过G逼近≈ W H,其中WiAis为N×K矩阵,HAu为K×d矩阵,W和H均为非负矩阵。NMF的吸引力在于其生物学解释,其中矩阵W的K列被解释为K癌信号对N=96突变类别的贡献权重,矩阵H的列被解释为每个样本中这些K信号的暴露。为此付出的代价是,NMF是一个迭代过程,计算成本很高,根据样本数d,它可能需要几天甚至几周才能运行。此外,NMF不会固定签名K的数量,签名K必须是猜测或通过试错获得的,从而进一步增加了计算成本。也许最重要的是,NMF是一种不确定性算法,每次运行都会生成不同的矩阵W。这是通过对通过多次NMF运行(或采样)获得的多个此类W矩阵进行平均来解决的。然而,每次运行通常会生成一个权重矩阵WIAW,其中的列(即签名)与其他运行中的列不对齐。在不同的运行中对齐或匹配签名(在对其进行平均之前),通常通过不确定性聚类(如k-means)来实现。

使用道具

地板
mingdashike22 在职认证  发表于 2022-6-6 15:21:04 |只看作者 |坛友微信交流群
因此,结果,即使在平均之后,通常也是有噪声和不确定性的!一、 例如,如果在相同的数据上反复运行这个计算成本高昂的程序(包括平均值),通常每次都会产生不同的癌症特征!简单地说,基于NMF的提取癌症特征的方法并不是为了在样本中保持稳定而设计的。在这种情况下,样本外稳定性甚至无法想象。。。如果没有样本内和样本外的稳定性,癌症特征的实际治疗和诊断应用将是一个挑战。例如,假设来自患者样本的onesequences基因组(或外显子组–见下文)数据。让我们关注SNV。我们有96个突变类别的发生计数向量。我们需要一个快速的计算测试,以足够高的置信度来确定i)该数据中是否存在癌症特征,以及ii)该癌症特征对应的癌症类型(即癌症起源于哪个器官)。如果癌症特征甚至在样本中都不稳定,那么我们就不能相信它们。它们可能只是噪音。事实上,在这些数据中总是存在体细胞突变噪声,在提取癌症特征之前,必须将其从数据中剔除。理解体细胞突变噪声的一个简单方法是注意到突变(i)已经存在于未受癌症影响的人类中,以及(ii)此类突变,每个W对应于NMF目标函数无数个局部极小值中的一个。“噪声”是指通过平均获得的权重中的统计误差。通常,关于癌症特征的文献中没有此类错误条的报道。通常,它们很大。一、 例如,从非重叠样本集获得的癌症特征可能会显著不同。

使用道具

7
kedemingshi 在职认证  发表于 2022-6-6 15:21:07 |只看作者 |坛友微信交流群
样本外稳定性对于实用性至关重要,例如诊断性。无论是通过液体活组织检查、血液测试还是其他(可能是新的)方法。与癌症无关,当癌症发生时会进一步恶化,因为它会破坏DNA中各种过程(包括修复)的正常运行。在数据矩阵G的层面上,在【Kakushadze和Yu,2016b】中,我们讨论了体细胞突变噪声的一个关键组成部分,并给出了去除它的处方。然而,可能存在其他更深层次的体细胞突变噪声源,必须进一步识别和仔细分析。简单地说,体细胞突变噪音是癌症信号系统性错误的重要来源。然而,还有统计误差,这是很大的,这是由于上文讨论的NMF的非确定性。这种统计误差因体细胞突变噪声而加剧,但即使以某种方式完全排除了这种噪声,这种误差也会存在。因此,必须以某种方式解决样本内不稳定性问题。我们强调,从先验角度来看,这并不会自动解决样本外稳定性问题,没有样本外稳定性,任何治疗或诊断应用仍然是牵强附会的。然而,没有样品中的稳定性,什么都不清楚。。。目前的问题并不重要,需要一步一步的方法,包括识别样本内不稳定性的各种来源。【Kakushadze和Yu,2016b】的一个简单观察结果是,如果我们直接使用单个样本的发生计数Giu,(i)数据非常嘈杂,(ii)如果样本数量很大,则符号数量必然太大而没有意义/有用。处理这个问题的一个简单方法是按癌症类型聚合样本。

使用道具

8
kedemingshi 在职认证  发表于 2022-6-6 15:21:10 |只看作者 |坛友微信交流群
在这样做的过程中,我们有了一个矩阵Gis,其中s现在标记癌症类型,这(i)噪音更小,(ii)更小(96×n,其中n是癌症类型的数量),因此结果签名的数量更合理。因此,这种聚合是有帮助的。尽管如此,即使使用聚合,我们也必须解决(NMF的)不确定性。为了解决这个问题,在【Kakushadze和Yu,2017b】中,我们提出了一种完全绕过NMF的替代方法。正如我们在【Kakushadze和Yu,2017b】中所述,NMFI——至少在一定程度上——伪装成集群。E、 g.,许多宇宙癌症信号【COSMIC,2017年】通过NMFexhibit聚类子结构获得,即在许多这些信号中存在高权重的突变类别(“峰值”),这是通过横截面(即跨越96个突变类别)降低“对数计数”来实现的。这种“去噪”极大地改善了我们在【Kakushadze和Yu,2016b】中从基因组数据中提取的基于NMF的特征,并将14种癌症类型中1389个样本的基因组数据集的计算成本(对于较大的数据集,这些节省将以非线性方式扩展)降低了约10倍。在【Kakushadze和Yu,2016b】中,通过调整定量金融中统计风险模型中使用的方法【Kakushadze和Yu,2017a】,我们还提出了一种基于eRank(有效等级)的癌症特征数量的简单方法【Roy和Vetterli,2007】。在按癌症类型汇总样本时,对于某些癌症类型,相关信息可能会混淆,因为可能有一些生物因素需要了解,例如,肝癌的突变谱可能具有很大的区域依赖性,因为它们会因暴露于不同的化学物(酒精、毒素、烟草等)而发生突变。

使用道具

9
mingdashike22 在职认证  发表于 2022-6-6 15:21:14 |只看作者 |坛友微信交流群
在这种情况下,在一种癌症类型内按区域(或其他适用特征,视情况而定)进行聚集仍然可以保证减少噪音(或者,如果不进行任何聚集,只会有太多癌症特征——参见[Kakushadze and Yu,2016b]中的表7)。然而,为了不超过我们自己——一步一步——在本文中,我们将使用按癌症类型聚合的(外显子组)数据(见下文)。通过基于生物直觉和经验观察的额外启发式进行补充。或“高山景观”),其他突变类别的权重很小,很可能在统计和系统误差范围内。对于所有实际用途,可以将此类低权重设置为零。然后,许多癌症特征开始看起来像簇,尽管一些簇可能在不同特征之间重叠。考虑到各种特征在一开始可能是体细胞突变噪声伪影,并且统计误差条很大,我们自然会怀疑数据中是否存在一些强大的潜在聚类结构,因为我们知道这些结构可能并不适用于所有癌症类型。然而,即使它们存在于大量的癌症类型中,揭开它们的面纱将是理解癌症特征结构的重要一步。为了解决这个问题,在【Kakushadze和Yu,2017b】中,我们提出了一种称为*K-means的新聚类算法。它的基本构建块是普通的k-meansalgorithm,它在计算上非常便宜。然而,它也是不确定的。

使用道具

10
大多数88 在职认证  发表于 2022-6-6 15:21:21 |只看作者 |坛友微信交流群
*K-means在K-means的基础上使用了两个机器学习级别来实现统计确定性(详见第2节),而无需对中心进行任何初始化等。一旦K-means确定了聚类,就可以使用(归一化)回归计算权重和风险敞口【Kakushadze和Yu,2017b】,从而完全绕过计算成本高昂的NMF。在【Kakushadzeand Yu,2017b】中,我们将该方法应用于癌症基因组数据,对应于1389个已发表的14种癌症类型的样本。我们发现,聚类对14种癌症类型中的10种很有效——指标包括聚类内相关性和总体质量。这表明,至少对于大多数癌症类型而言,在潜在的癌症基因组数据中确实存在着集群亚结构!这太令人兴奋了!在本文中,我们将[Kakushadze和Yu,2017b]的方法应用于由10656个已发布样本(样本ID和来源见附录A)组成的外显子组数据,这些样本由32种癌症类型聚合而成*K-means从这些数据中生成一个鲁棒稳定的聚类(11个聚类)。使用外显子组数据的一个动机是外显子组是一个很小的子集(~1%)的全基因组,仅包含基因组的蛋白质编码区【Ng等人,2009年】。外显子组测序比全基因组便宜得多,花费的时间也少,而外显子组测序对早期诊断尤其重要,但它编码了有关癌症特征的重要信息。正如我们在后续章节中所讨论的,我们的方法似乎对大多数癌症类型的外显子组数据很有效。事实上,总的来说,当将来自我们外显子组数据的聚类应用于基因组数据时,它似乎比宇宙特征(包括样本外)更有效。实际上,如果不从根本上复制[Kakushadze和Yu,2017b]中的所有技术细节,就无法使本文完整。我们在这里不会这样做。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-11-10 06:17