楼主: kedemingshi
1916 63

[量化金融] *癌症特征的K-均值和聚类模型 [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
15 个
通用积分
89.2735
学术水平
0 点
热心指数
8 点
信用等级
0 点
经验
24665 点
帖子
4127
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
kedemingshi 在职认证  发表于 2022-5-31 05:25:57 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《*K-means and Cluster Models for Cancer Signatures》
---
作者:
Zura Kakushadze and Willie Yu
---
最新提交年份:
2017
---
英文摘要:
  We present *K-means clustering algorithm and source code by expanding statistical clustering methods applied in https://ssrn.com/abstract=2802753 to quantitative finance. *K-means is statistically deterministic without specifying initial centers, etc. We apply *K-means to extracting cancer signatures from genome data without using nonnegative matrix factorization (NMF). *K-means\' computational cost is a fraction of NMF\'s. Using 1,389 published samples for 14 cancer types, we find that 3 cancers (liver cancer, lung cancer and renal cell carcinoma) stand out and do not have cluster-like structures. Two clusters have especially high within-cluster correlations with 11 other cancers indicating common underlying structures. Our approach opens a novel avenue for studying such structures. *K-means is universal and can be applied in other fields. We discuss some potential applications in quantitative finance.
---
中文摘要:
通过扩展统计聚类方法,我们提出了*K-means聚类算法和源代码https://ssrn.com/abstract=2802753量化金融*K-means在统计上具有确定性,无需指定初始中心等。我们应用*K-means从基因组数据中提取癌症特征,无需使用非负矩阵分解(NMF)*K-means的计算成本只是NMF的一小部分。使用1389个已发表的14种癌症类型的样本,我们发现3种癌症(肝癌、肺癌和肾细胞癌)突出,没有簇状结构。两个簇内相关性特别高,其他11种癌症显示出共同的潜在结构。我们的方法为研究此类结构开辟了一条新途径*K-means具有通用性,可以应用于其他领域。我们讨论了定量金融中的一些潜在应用。
---
分类信息:

一级分类:Quantitative Biology        数量生物学
二级分类:Genomics        基因组学
分类描述:DNA sequencing and assembly; gene and motif finding; RNA editing and alternative splicing; genomic structure and processes (replication, transcription, methylation, etc); mutational processes.
DNA测序与组装;基因和基序的发现;RNA编辑和选择性剪接;基因组结构和过程(复制、转录、甲基化等);突变过程。
--
一级分类:Quantitative Biology        数量生物学
二级分类:Quantitative Methods        定量方法
分类描述:All experimental, numerical, statistical and mathematical contributions of value to biology
对生物学价值的所有实验、数值、统计和数学贡献
--
一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--

---
PDF下载:
--> *K-means_and_Cluster_Models_for_Cancer_Signatures.pdf (972.36 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Quantitative Applications Econophysics Experimental Contribution

沙发
nandehutu2022 在职认证  发表于 2022-5-31 05:26:02
*癌症标志的K均值和聚类模型Zura Kakushadze§+1 and Willie Yu]2§QuantigicrSolutions LLC1127 High Ridge Road#135,Stamford,CT 06905+第比利斯自由大学商学院和物理学院240,David Agmashenebeli Alley,第比利斯,0159,佐治亚州]杜克·努斯医学院8学院路计算生物学中心,新加坡169857(2017年1月30日)摘要我们通过扩展应用于https://ssrn.com/abstract=2802753to定量融资*K-means在统计上具有确定性,无需指定初始中心等。我们应用*K-means从基因组数据中提取癌症特征,无需使用非负矩阵分解(NMF)*K-means的计算成本只是NMF的一小部分。使用1389个已发布的14种癌症类型的样本,我们发现3种癌症(肝癌、肺癌和肾细胞癌)突出,没有簇状结构。两个簇内相关性特别高,其他11种癌症显示出共同的潜在结构。我们的方法为研究此类结构开辟了一个新的领域*K-means是通用的,可以应用于其他领域。我们讨论了定量金融中的一些潜在应用。Zura Kakushadze博士是QuantigicrSolutions LLC的总裁,也是第比利斯自由大学的全职教授。电子邮件:zura@quantigic.comWillie余博士是杜克国立大学医学院的研究员。电子邮件:willie。yu@dukenus.edu.sgDISCLAIMER:通讯作者使用此地址的目的仅是按照出版物惯例表明其专业职责。

藤椅
大多数88 在职认证  发表于 2022-5-31 05:26:06
特别是,本文件的内容并非投资、法律、税务或任何其他此类建议,也不代表QuantigicSolutions LLC(网站www.quantigic)的观点。com或其任何附属公司。1简介和总结每当我们能了解到关于癌症的新知识时,我们的动机就不在于说。癌症是不同的。与其他疾病不同,它不是由“机械”故障、生化失衡等引起的。相反,癌症是通过基因组结构的体细胞改变在DNA水平发生的。在癌症中发现的一种常见的体型突变是由于单核苷酸变异(SNV)或基因组中单个碱基的改变,这些变异通过细胞分裂过程中不完全的DNA复制或自发的胞嘧啶脱氨基作用在癌症患者的整个生命周期中积累【Goodman和Fygenson,1998年】【Lindahl,1993年】,或者由于暴露于化学侮辱或紫外线辐射【Loeb和Harris,2008年】【Ananthaswamy和Pierceall,1990年】等。这些突变过程在癌症基因组中留下了足迹,其特征是独特的改变模式或突变特征。如果我们能够识别所有潜在的特征,这将极大地促进对癌症起源及其发展的理解。

板凳
何人来此 在职认证  发表于 2022-5-31 05:26:08
在治疗上,如果不同癌症类型之间存在共同的基础结构,那么一种癌症类型的治疗方法可能适用于其他癌症,这将是一个巨大的新闻。然而,这一切归结为有用性的问题,也就是说,在所有(100多个)已知癌症类型的基础上,是否有足够少的癌症特征,或者这个数字太大而没有意义或有用?事实上,只有96个SNV,所以我们不能有超过96个签名。即使真正的底层签名的数量是,比如说,50阶,也不清楚它们是否有用,特别是在实际应用中。另一方面,如果只有十几个或更可靠的特征,那么我们可以希望简化一个数量级。为了确定突变特征,我们分析了一组DNA测序的全癌症基因组中的SNV模式。数据被组织到矩阵Gis中,其中行对应于N=96个突变类别,列对应于d个样本,每个元素是给定样本中给定突变类别的非负出现计数。目前,从Gis中提取癌症特征的公认方法【Alexandrov等人,2013a】是通过非负矩阵分解(NMF)[Paatero和Tapper,1994年],【Lee和Seung,1999年】。在NMF下,矩阵G通过G近似≈ 其中WiAis是N×Kmatrix,has是K×d矩阵,W和H都是非负的。NMF的出现是其生物学解释,其中矩阵W的K列是另一个实际应用,通过将从癌症样本中提取的特征与已知致癌物(如烟草、毒素、紫外线辐射等)引起的特征配对来预防。简言之,DNA是由两条链组成的双螺旋,每条链是一串字母a、C、G、T,分别对应腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶。

报纸
何人来此 在职认证  发表于 2022-5-31 05:26:12
在双螺旋中,一条链中的A总是与另一条链中的T结合,而G总是与C结合。这就是已知的碱基互补性。因此,有六种可能的碱基突变C>A、C>G、C>T、T>A、T>C、T>G,而其他六种碱基突变通过碱基互补性与这些碱基突变相当。这6个可能的碱基突变中的每一个都由每个侧的4个可能碱基组成,从而产生4×6×4=96个不同的突变类别。非线性可能会破坏这一论点。然而,这一切又归结为有用性。解释为K癌症特征码贡献到96个突变类别的权重,矩阵H的列解释为每个样本中K特征码的暴露。为此付出的代价是,NMF是一个迭代过程,计算成本很高,根据样本数d,运行它可能需要几天甚至几周的时间。此外,它不会自动确定签名K的数量,签名K必须是猜测或通过试错获得的,从而进一步增加了计算成本。上述一些问题最近在【Kakushadze和Yu,2016b】中得到了解决,也就是说:i)通过按癌症类型聚合样本,我们可以大大提高稳定性并减少签名数量;ii)通过识别和分解体细胞突变噪声或“整体”模式(这是【Kakushadze和Yu,2016b】的“去噪”程序),我们可以进一步大大提高稳定性,并作为奖励,降低计算成本;和iii)通过计算癌症类型或样本的相关矩阵ψij的有效秩(或eRank)[Roy和Vetterli,2007],可以通过定量金融中统计风险模型的方法【Kakushadze和Yu,2017b】来实现签名的数量(见下文)。

地板
mingdashike22 在职认证  发表于 2022-5-31 05:26:15
所有这些都带来了实质性的改善【Kakushadze和Yu,2016b】。在本文中,我们将该计划推向另一个层次。这里的基本思想非常简单(但事实证明,实现起来并不重要——见下文)。我们希望将聚类技术应用于提取癌症特征的问题。事实上,我们在第2节中指出,NMF在某种程度上是“伪装的集群”。这有两个主要原因。平淡无奇的原因是,NMF作为一种不确定性算法,需要对其产生的许多局部最优值进行平均。然而,每个梯级通常会生成一个权重矩阵WIA,其列(即签名)与其他运行中的列(即签名)不对齐。在不同的运行中对齐或匹配签名(在对其进行平均之前),通常通过不确定性聚类(如k-均值)来实现。因此,不仅在某一层使用了聚类,即使在平均之后,结果通常也是有噪声和不确定性的!一、 例如,如果在相同的数据上反复运行这个计算代价高昂的程序(包括平均值),通常每次都会产生不同的癌症特征!第二个不那么平淡无奇的原因是,虽然NMF通常不会生成完全为空的权重,但它确实会生成较低的权重,因此它们具有错误的条。出于所有实际目的,我们不妨将这些权重设置为零。NMF需要非负权重。

7
能者818 在职认证  发表于 2022-5-31 05:26:18
然而,我们可以合理地要求权重应在误差线之外(例如,高于一个标准偏差–其他问题包括:i)样本外不稳定性,即从非重叠样本集获得的签名可能会显著不同;ii)样本不稳定性,即签名可能对初始迭代选择有很强的依赖性;和iii)计数较低或样本数量稀少的样本(即具有许多零的样本–此类样本无处不在,例如不精确数据)通常被认为没有太大用处,因为它们会导致样本内不稳定。因此,现在我们有了这样的聚合矩阵Gis,其中s=1,d、 d=n是癌症类型的数量,而不是样本的数量。该矩阵比样本数据噪音小得多。“噪声”是指通过平均获得的权重中的统计误差。通常,癌症特征文献中未报告此类误差条。通常它们很大。这将导致算法高度递归,可能不稳定或计算成本太高)或高于某个最小阈值(这将与复杂的NMF一样更加复杂),或者将不符合要求的权重设置为零。当我们增加这个最小阈值时,矩阵将开始有越来越多的零。它可能并不完全具有二元类簇结构,但它可能至少具有一些类簇的子结构。这就引出了一个问题:WiAor中是否存在簇状(子)结构,通常是癌症特征?为了回答这个问题,我们可以将聚类方法直接应用于matrixGis,或者更准确地说,应用于其去噪版本的Gis(见下文)[Kakushadze and Yu,2016b]。简单地对Gisor进行集群的天真、暴力的方法由于各种原因都不起作用,有些方法比其他方法更重要或更微妙。

8
nandehutu2022 在职认证  发表于 2022-5-31 05:26:21
因此,例如,如【Kakushadze和Yu,2016b】所述,计数具有倾斜的长尾分布,人们应该使用对数计数,或者更准确地说,使用其去噪版本。这也适用于集群。此外,在【Kakushadze和Yu,2016c】中讨论了quantitativetrading的背景下,对去噪日志计数进行聚类是次优的。相反,它需要对它们的规范化变体进行聚类(参见本文第2节)。然而,关注这些细微之处并不能缓解一个大问题:不确定性!如果我们在数据上运行avanilla非确定性算法,例如k-means,不管用什么样的方法处理数据,每次运行k-means时,我们都会得到随机的、看起来完全不同的结果,而看不到稳定性。我们需要解决不确定性问题!我们对这个问题的解决方案是我们称之为“K”的意思。基本上实现了统计学上的决定论的*Kmeans背后的想法很简单。假设我们有一个N×d矩阵Xis,也就是说,我们有N个d向量Xi。如果我们用输入的聚类数k运行k-means,但最初没有指定的中心,每次运行通常会产生一个新的局部最优值*K-means通过两个层次减少并实际上基本上消除了这种不确定性。在第1级,它需要通过Mindependent运行或采样获得聚类。每次采样产生一个二进制N×K矩阵OhmiA,如果Xibelongs到由A标记的集群,则其元素等于1,否则为0。【Kakushadzeand Yu,2016c】中给出了聚合算法及其源代码。由于与NMF中相同的原因(见上文),这种聚合涉及在M次运行中对齐集群,这是通过k均值实现的,因此结果是不确定的。然而,通过聚合大量M个采样,可以大大降低不确定性的程度。

9
能者818 在职认证  发表于 2022-5-31 05:26:24
“陷阱”是,有时这种聚合会产生K<K个集群的集群,但这并不构成问题。因此,在第2级,我们对这样的聚合进行了大量的P(每个聚合基于M个抽样)。聚集群集的出现计数并不均匀,但通常在少数(或可管理的)聚集群集周围具有(急剧)峰值分布。因此,通过这种方式,我们可以确定“最终”聚类,即具有高发生率计数的聚合聚类。这是K-means的要点,它对基因组数据很有效。确定性(如凝聚层次)算法有其自身的问题(见下文)。因此,我们对【Kakushadze和Yu,2016b】中相同的基因组数据应用*K-均值,包括1389个(已发表)样本,涉及14种癌症类型(见下文)。我们的目标聚类数是7,这是在[Kakushadze和Yu,2016b]中使用基于eRank的算法获得的(见上文)。我们将1000个样本聚合到集群中,并构建了150000个这样的聚合集群(即,我们有1.5亿个k-means实例)。我们确实找到了包含7个集群的“终极”集群。一旦聚类确定,结果表明,可以通过线性回归(使用一些钟声和哨声)计算聚类内的权重,并且权重自动为正。也就是说,我们根本不需要NMF!一旦我们有了聚类和权重,我们就可以研究重建精度以及基础数据和聚类模型生成的已确定数据之间的聚类内相关性。我们发现,在我们研究的14种癌症类型中,有10种可以很好地进行聚类。对于肝癌、肺癌和肾细胞癌而言,聚类似乎并不那么有效。此外,7个集群中有5个集群出现80%以上的集群内相关性。

10
可人4 在职认证  发表于 2022-5-31 05:26:27
此外,值得注意的是,一个聚类对9种癌症类型的聚类相关性较高,另一个聚类对6种癌症类型的聚类相关性较高。这些似乎是主要的集群。在14种癌症类型中,有11种癌症与包容性高相关。那么这一切意味着什么呢?通过观察【Kakushadze和Yu,2016b】中提取的信号Sig1到Sig7与我们的聚类之间的聚类内相关性,可以提供更多的见解。Sig1、Sig2、Sig4和Sig7的簇内相关性很高,它们正是具有“峰值”(或“尖峰”–“高山景观”)的特征,而Sig3、Sig5和Sig6没有此类“峰值”(“fl at”或“rollinghills景观”);参见【Kakushadze和Yu,2016b】的图14至图20。后3个签名根本没有类簇结构。看看[Kakushadze和Yu,2016b]中的图21,很明显为什么聚类不能很好地治疗肝癌——Sig5的贡献率高达96%!同样,肾细胞癌有70%来自Sig6。肺癌以Sig3为主,因此没有簇状结构。因此,肝癌、肺癌和肾细胞癌与其他癌症(以及彼此)几乎没有共同之处!然而,其他11种癌症,即B细胞淋巴瘤、骨癌、脑低级别胶质瘤、乳腺癌、慢性淋巴细胞白血病、食管癌、胃癌、髓母细胞瘤、卵巢癌、胰腺癌和前列腺癌,有5种(其中2种)簇状结构基本上嵌入其中。在第2节中,我们i)讨论了为什么应用聚类算法提取癌症信号是有意义的,ii)认为NMF在某种程度上是“伪装的聚类”,以及iii)给出了通过*K-均值构建聚类模型的机制,包括各种细节,如聚类内容、如何确定聚类数量等。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-2 03:06