楼主: kedemingshi
1918 63

[量化金融] *癌症特征的K-均值和聚类模型 [推广有奖]

41
可人4 在职认证  发表于 2022-5-31 05:28:06
要记住的一件事是,在*K-means中,一个人要筛选大量的P个聚合,当将2000多只股票聚类成100多个集群时,这会带来计算成本。另一个潜在的应用是在组合Alpha(交易信号)的背景下——参见,例如,【Kakushadze和Yu,2017a】。还有一个应用是当我们有一个期限结构时,比如一个期限不同的债券组合(如美国国债或其他一些债券),或者一个交付量不同的期货组合(如欧洲美元期货)。这些病例更像基因组数据,因为仪器的数量相对较少(通常甚至少于突变类别的数量)。另一个工具数量相对较少的例子是不同外汇(外汇)对的各种期货组合(即使是统一交割),例如美元/欧元、美元/港币、欧元/澳元等,即FX统计套利。优化此类投资组合风险的一种方法是采用聚类方法,而稳定的、本质上具有确定性的算法(如*K-means)可能很有用。希望K-means能成为癌症研究、定量金融以及其他领域(如图像识别)的一个有价值的工具。R源代码在本附录中,我们给出了用于统计计算的R(R)包,http://www.rproject.org)使用第2节的算法计算聚类和权重的源代码。代码简单明了,不言自明。主要功能是生物。cl.sigs(x,iter.max=100,num.try=1000,num.runs=10000)。这里:x是N×d发生计数矩阵Gis(其中N=96是或两者的数量…或者-这将是真正令人兴奋的-也许有一个生物学解释。无论如何,现在说还为时过早-另一种可能性是,这仅仅是我们使用的数据集的一个事实。

42
mingdashike22 在职认证  发表于 2022-5-31 05:28:09
需要对更大的数据集(见上文)进行更多的研究和分析。尽管我们知道这需要额外的计算成本。这可以通过采用自上而下的聚类来缓解【Kakushadze和Yu,2016c】。本文附录A中的源代码不是为了“花哨”而编写的,也不是为了速度或任何其他方式而优化的。其唯一目的是用一个简单的例子来说明正文中描述的算法,以了解时尚。一些重要的法律术语见附录B。突变类别,d为样本数;或d=n,其中n是癌症类型的数量,当样本按癌症类型聚合时);iter。max是传递到R内置函数kmeans()的最大迭代次数;num.try是聚合集群的数量M(见第2.3.2小节);num.runsis通过聚合(见第2.3.3小节)获得的用于确定最频繁发生的聚类(“最终”聚类)的运行次数P。功能生物。埃朗克。pc()见【Kakushadze和Yu,2016b】的附录B。功能qrm。【Kakushadze and Yu,2016c】的附录A中定义了stat.ind.class()。此函数在内部调用另一个函数qrm。计算标准。ret(),我们在此通过函数bio重新定义。计算标准。ret()。输出为alist,其元素如下:res$ind是一个N×K二进制矩阵OhmiA=δG(i),A(i=1,…,N,A=1,…,K,映射G:{1,…,N}7→ {1。

43
可人4 在职认证  发表于 2022-5-31 05:28:12
,K}–见第2节),其中定义了“最终”聚类中的K聚类;res$w是通过使用算术平均值计算风险敞口(即,通过(13)、(14)和(15))的非正规回归获得的权重N向量;res$v是通过使用算术平均值计算风险敞口(即,通过(17)、(14)和(16)),通过归一化回归获得的权重N向量;res$w.g是通过使用几何平均值计算敞口(即,通过(13)、(14)和(19))的非正规化回归获得的权重的N向量;res$v.g是通过使用几何平均值计算风险敞口(即,通过(17)、(14)和(21))的归一化回归获得的权重N向量。生物计算标准。ret<-函数(ret){s<-应用(ret,1,sd)x<-ret/sreturn(x)}qrm。计算标准。ret<-生物。计算标准。retbio。cl.sigs<-函数(x,iter.max=100,num.try=1000,num.runs=10000){cl.ix<-函数(x)匹配(1,x)y<-log(1+x)y<-t(t(y)-colMeans(y))【Kakushadze和Yu,2016c】中qrm.calc.norm.ret()的定义解释了一些与定量交易相关的特性和细微差别,这些特性和细微差别在这里不适用。代码返回K个有序的聚类,以使突变数nA(即OhmiA)在标记为A的簇中,按递增顺序排列。它还订购具有相同nA的群集。

44
可人4 在职认证  发表于 2022-5-31 05:28:15
然而,我们注意到(出于表示方便的原因),以下表格和图中这些集群的顺序不一定与代码返回的顺序相同。x、 d<-经验(y)k<-ncol(bio.erank.pc(y)$pc)n<-nrow(x)u<-rnorm(n,0,1)q<-矩阵(NA,n,num.runs)p<-代表(NA,num.runs)(i in 1:num.runs){z<-qrm.stat.ind.class(y,k,iter.max=iter.max,num.try=num.try,demen.ret=F)p【i】<-和(残差(lm(u~ -1+z))^2)q[,i]<-应用(z,1,cl.ix)}p1<-唯一(p)ct<-rep(NA,length(p1))for(i in 1:length(p1))ct[i]<-sum(p1[i]=p)p1<-p1[ct==max(ct)]i<-匹配(p1,p)[1]ix<-q[,i]k<-max(ix)z<-矩阵(NA,n,k)for(j in 1:k)z[,j]<-as。数值(ix==j)res<-bio。cl.wts(x.d,z)返回(res)}bio。cl.wts<-函数(x,ind){first.ix<-函数(x)匹配(1,x)[1]calc.wts<-函数(x,use.wts=F,use.geom=F){if(use.geom){if(use.wts)s<-应用(log(x),1,sd)elses<-rep(1,nrow(x))s<-1/s/sum(1/s)fac<-应用(x,2,prod)}否则{if(use.wts)s<-应用(x,1,sd)elses<-rep(1,nrow(x))fac<-colMeans(x/s)}w<-系数(lm(t(x)~ -1+fac)w<-100*w/和(w)返回(w)}n<-nrow(x)w<-w.g<-v<-v.g<-rep(NA,n)z<-colSums(ind)z<-as。数字(粘贴(z,“.”,应用(ind,2,first.ix),9月=))dimnames(ind)[[2]]<名称(z)<1:ncol(ind)z<排序(z)z<名称(z)ind<ind[,z]dimnames(ind)[[2]]<空值(i in 1:ncol(ind)){取<-ind[,i==1if(总和(取)==1){w[取]<-w.g[取]<-1v[取]<-v.g[取]<-1next w[取]<-计算wts(x[取,F,F)w.g[取]<-计算wts(x[取,],F,T)v[取]<-计算wts(x[取,],T,F)v.g[取]<-计算wts(x[取,],T,T)}res<-新建。env()res$ind<-indres$w<-wres$w.g<-w.gres$v<-vres$v.g<-v.greturn(res)}B免责声明只要上下文需要,阳性包括阴性和/或阴性,单数包括复数,反之亦然。

45
mingdashike22 在职认证  发表于 2022-5-31 05:28:18
本文作者(“作者”)及其附属公司,包括但不限于QuantigicSolutions LLC(“作者附属公司”或“其附属公司”),不作任何默示或明示保证或任何其他陈述,包括但不限于对特定目的的适销性和适配性的默示保证,与本文件内容相关,包括但不限于本文件中包含的任何代码或算法(“内容”)。读者可自行承担使用内容的风险,读者不得对作者或其关联方提出任何索赔,作者及其关联方对读者或任何第三方不承担任何损失、费用、机会成本,与读者使用内容有关或因读者使用内容而产生的任何损害或任何其他不利影响,包括但不限于:读者遭受的任何直接、间接、附带、特殊、后果性或任何其他损害,无论是何种原因和根据任何责任理论造成的;任何利益损失(无论是直接或间接发生)、任何商誉或声誉损失、任何数据损失、替代货物或服务的采购成本或任何其他有形或无形损失;读者对内容的完整性、准确性或存在性或使用内容的任何其他影响的依赖;以及读者在使用内容时可能遇到的任何和所有其他不利因素或负面影响,而不管作者或其同僚是否、是否或应该意识到这些多样性或负面影响。附录A中包含的R代码是QuantigicSolutions LLC受版权保护的R代码的一部分,并在QuantigicSolutions LLC明确许可的情况下提供。

46
何人来此 在职认证  发表于 2022-5-31 05:28:22
版权所有人保留本协议附录A中包含的受版权保护的源代码及其所有版权的所有权利、所有权和权益。参考文献Alexandrov,L.B.、Nik Zainal,S.、Wedge,D.C.、Campbell,P.J.和Stratton,M.R.(2013a)解读人类癌症突变过程的特征。单元格报告3(1):246-259。Alexandrov,L.B.、Nik Zainal,S.、Wedge,D.C.、Aparicio,S.A.、Behjati,S.、Biankin,A.V.、Bignell,G.R.、Bolli,N.、Borg,A.、Borresen Dale,A.L.、Boyault,S.、Burkhardt,B.、Butler,A.P.、Caldas,C.、Davies,H.R.、Desmedt,C.、Eils,R.、Eyfj¨ord,J.E.、Foekens,J.A.、Greaves,M.、Hosoda,F.、Hutter,B.、Eils,R.。Ilicic,T.、Imbeaud,S.、Imielinski,M.、J¨ager,N.、Jones,D.T.、Jones,D.、Knappskog,S。,Kool,M.、Lakhani,S.R.、L'opez Ot'n,C.、Martin,S.、Munshi,n.C.、Nakamura,H.、Northcott,P.A.、Pajic,M.、Papaemanuil,E.、Paradiso,A.、Pearson,J.V.、Puente,X.S.、Raine,K.、Ramakrishna,M.、Richardson,A.L.、Richter,J.、Rosenstiel,P.、Schlesner,M.、Schumacher,T.n.、Span,P.n.、Teague,J.W.、Totoki,M.Y.、Tutt,A.n.、Vald\'es Mas,R.、van Buuren,M.M.、van\'T Veer,L。,Vincent Salomon,A.,Waddell,N.,Yates,L.R。;澳大利亚胰腺癌基因组计划;ICGC乳腺癌联合会;ICGC MMML SeqConsortium;ICGC PedBrain,Zucman Rossi,J.,Futreal,P.A.,McDermott,U.,Lichter,P.,Meyerson,M.,Grimmond,S.M.,Siebert,R.,Campo,E.,Shibata,T.,P fister,S.M.,Campbell,P.J.,Stratton,M.R.(2013b)人类癌症突变过程的特征。自然500(7463):415-421。Alexandrov,L.B.和Stratton,M.R.(2014)《突变特征:隐藏在癌症基因组中的体细胞突变模式》。遗传学与发育的最新观点24:52-60。Ananthaswamy,H.N.和Pierceall,W.E.(1990)紫外线辐射致癌的分子机制。

47
nandehutu2022 在职认证  发表于 2022-5-31 05:28:26
光化学和光生物学52(6):1119-1136。Bacolla,A.、Cooper,D.N.和Vasquez,K.M.(2014)癌症基因组中碱基替代突变的机制。基因5(1):108-146。Bai,J.和Ng,S.(2002)确定近似因子模型中的因子数量。计量经济学70(1):191-221。Bolli,N.、Avet Loiseau,H.、Wedge,D.C.、Van Loo,P.、Alexandrov,L.B.、Martincorena,I.、Dawson,K.J.、Iorio,F.、Nik Zainal,S.、Bignell,G.R.、Hinton,J.W.、Li,Y.、Tubio,J.M.、McLaren,S.、O’Meara,S.、Butler,A.P.、Teague,J.W.、Mudie,L.、Anderson,E.、Rashid,N.、Tai,Y.T.、Shammas,M.A.、Sperling,A.S.、Fulcini M.,Richardson,P.G.,Parmigiani,G.,Magrangeas,F.,Minvielle,S。,Moreau,P.、Attal,M.、Facon,T.、Futreal,P.A.、Anderson,K.C.、Campbell,P.J.、Munshi,N.C.(2014)多发性骨髓瘤基因组进化和突变的异质性。《自然通讯》第5期:2997页。Bouchaud,J.-P.和Potters,M.(2011)《随机矩阵理论的金融应用:简要回顾》。摘自:Akemann,G.、Baik,J.和Di Francesco,P.(编辑)《牛津随机矩阵理论手册》。英国牛津:牛津大学出版社。Burns,M.B.、Lackey,L.、Carpenter,M.A.、Rathore,A.M.、Land,Leonard,B.、Refsland,E.W.、Kotandeniya,D.、Tretyakova,N.、Nikas,J.B.、Yee,D.、Temiz,N.A.、Donohue,D.E.、McDougle,R.M.、Brown,W.L.、Law,E.K.、Harris,R.S.(2013a)APOBEC3B是乳腺癌突变的酶源。《自然》494(7437):366-370。Burns,M.B.、Temiz,N.A.和Harris,R.S.(2013b)多种人类癌症中ApoBec3B突变的证据。自然遗传学45(9):977-983。Caval,V.、Susp\'ene,R.、Shapira,M.、Vartanian,J.P.和Wain Hobson,S.(2014)一种普遍的癌症易感性APOBEC3A杂交等位基因,携带着APOBec3bUTR,可增强染色体DNA损伤。自然通讯5:5129。坎贝尔,L.L。

48
可人4 在职认证  发表于 2022-5-31 05:28:29
(1960)平稳随机过程的最小系数率。信息与控制3(4):360-371。Chan,K.和Gordenin,D.A.(2015)《多重突变集群:发病率和分子机制》。《遗传学年鉴》49:243-627Chen,Z.、Feng,J.、Buzin,C.H.和Sommer,S.S.(2008a)肺癌双重/多重突变的流行病学:一个子集由时间坐标事件引起的证据。PloS One 3(11):e3714。Chen,Z.、Feng,J.、Saldivar,J.S.、Gu,D.、Bockholt,A.和Sommer,S.S.(2008b)肺癌中的EGFR体细胞双倍体很常见,通常来自一对罕见的单重态突变驱动突变:三分之一的双倍体发生在五对氨基酸上。癌基因27(31):4336-4343。程,C.,周,Y.,李,H.,熊,T.,李,S.,毕,Y.,孔,P.,王,F.,崔,H.,李,Y.,方,X.,闫,T.,李,Y.,王,J.,杨,B.,张,L.,贾,Z.,宋,B.,胡,X.,杨,J.,邱,H.,张,G.,刘,J.,徐,E.,史,R.,张,Y.,刘,H.,何,C.,赵,Z,钱,Y.,荣,R.,韩,Z,张,Y.,罗,W.,王,J.,彭,S.,杨,X.,李,X.,Li,L.,Fang,H.,Liu,X.,Ma,L.,Chen,Y。,郭,S.,陈,X.,Xi,Y.,李,G.,梁,J.,杨,X.,郭,J.,贾,J.,李,Q.,程,X.,詹,Q.,崔,Y.(2016)全基因组测序揭示了食管鳞状细胞癌结构变异的多种模式。《美国人类遗传学杂志》98(2):256-274。Connor,G.和Korajczyk,R.A.(1993)近似因子模型中因子数量的检验。

49
大多数88 在职认证  发表于 2022-5-31 05:28:34
《金融杂志》48(4):1263-1291。Davis,C.F.、Ricketts,C.J.、Wang,M.、Yang,L.、Cherniack,A.D.、Shen,H.、Buhay,C.、Kang,H.、Kim,S.C.、Fahey,C.C.、Hacker,K.E.、Bhanot,G.、Gordenin,D.A.、Chu,A.、Gunaratne,P.H.、Biehl,M.、Seth,S.、Kaipprettu,B.A.、Bristow,C.A.、Donehower,L.A.、Wallen,E.M.、Smith,A.B.、Tickoo,S.K.、Tamboli,P.Reuter,V.,Schmidt,L.S.,Hsieh,J.J.,Choueiri,T.K.,Hakimi,A.A。;癌症基因组图谱研究网络,Chin,L.,Meyerson,M.,Kucherlapati,R.,Park,W.Y.,Robertson,A.G.,Laird,P.W.,Henske,E.P.,Kwiatkowski,D.J.,Park,P.J.,Morgan,M.,Shuch,B.,Muzny,D.,Wheeler,D.A.,Linehan,W.M.,Gibbs,R.A.,Rathmell,W.K.,Creighton,C.J.(2014)嫌色肾细胞癌的体基因组景观。癌细胞26(3):319-330。De Amorim,R.C.和Hennig,C.(2015)使用特征重缩放因子恢复具有噪声特征的数据集中的聚类数。信息科学324:126-145。Forgy,E.W.(1965)《多元数据的聚类分析:分类的效率与可解释性》。生物特征21(3):768-769。Fujimoto,A.、Furuta,M.、Totoki,Y.、Tsunoda,T.、Kato,M.、Shiraishi,Y.、Tanaka,H.、Taniguchi,H.、Kawakami,Y.、Ueno,M.、Gotoh,K.、Arizumi,S.、Wardell,C.P.、Hayami,S.、Nakamura,T.、Aikata,H.、Arihiro,K.、Boroevich,K.A.、Abe,T.、Nakano,K.、Maejima,K.、Sasaki Oku,A.、Ohsawa,A.、Shibuya,T.、Nakamura,H.、Hama H.、Hosoda、F.、Arai、Y.、Ohashi、S.、Urushidate、T.、Nagae、G.、Yamamoto、,S.、Ueda,H.、Tatsuno,K.、Ojima,H.、Hiraoka,N.、Okusaka,T.、Kubo,M.、Marubashi,S.、Yamada,T.、Hirano,S.、Yamamoto,M.、Ohdan,H.、Shimada,K.、Ishikawa,O.、Yamaue,H.、Chayama,K.、Miyano,S.、Aburatani,H.、Shibata,T.、Nakagawa,H.(2016)肝癌非编码和结构突变的全基因组突变景观和特征。

50
mingdashike22 在职认证  发表于 2022-5-31 05:28:37
自然遗传学48(5):500-509。Goodman,M.F.和Fygenson,K.D.(1998)《DNA聚合酶的多样性:从遗传学到生物化学的理解》。遗传学148(4):1475-1482。Goutte,C.、Hansen,L.K.、Liptrot,M.G.和Rostrup,E.(2001)功能磁共振成像元分析的特征空间聚类。人脑图谱13(3):165-183。Grinold,R.C.和Kahn,R.N.(2000)《主动投资组合管理》。纽约州纽约市:麦格劳·希尔。Gundem,G.、Van Loo,P.、Kremeyer,B.、Alexandrov,L.B.、Tubio,J.M.、Papaemanuil,E.、Brewer,D.S.、Kallio,H.M.、H¨ogn¨as,G.、Annala,M.、Kivinummi,K.、Goody,V.、Latimer,C.、O\'Meara,S.、Dawson,K.J.、Isaacs,W.、Emmert Buck,M.R.、Nykter,M.、Foster,C.、Kote Jarai,Z.、Easton,D.、Whitaker,H.C。;ICGC前列腺英国集团,Neal,D.E.、Cooper,C.S.、Eeles,R.A.、Visakorpi,T.、Campbell,P.J.、McDermott,U.、Wedge,D.C.、Bova,G.S.(2015)《致命转移性前列腺癌的进化史》。自然520(7547):353-357。Hamerly,G.和Elkan,C.(2004)学习k-means中的k。《神经信息处理系统的进展》,第16卷。马萨诸塞州坎布里奇:麻省理工学院出版社,第281-289页。Hartigan,J.A.(1975)聚类算法。纽约州纽约:John Wiley&Sons,Inc.Hartigan,J.A.和Wong,M.A.(1979)算法AS 136:一种K均值聚类算法。皇家统计学会杂志,C辑(应用统计学)28(1):100-108。Helleday,T.、Eshtad,S.和Nik Zainal,S.(2014)人类癌症突变特征的潜在机制。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-2 05:14