楼主: 可人4
843 26

[量化金融] 癌症外显子组突变簇 [推广有奖]

21
nandehutu2022 在职认证  发表于 2022-6-13 23:15:55
为了量化这一点,让我们看看宇宙特征与【Kakushadze and Yu,2016b】和【Kakushadze and Yu,其与X26(直肠腺癌)和X32(子宫癌)的高度相关性】中使用的14种癌症类型的基因组数据的相关性,这与【COSMIC,2017】是一致的,而且显然是由于我们在此使用的外显子组数据与【COSMIC,2017】使用的外显子组数据之间存在很大的重叠。请注意,通过运行整体回归(无截距的Gisover Uiα)来考虑宇宙特征的整体fit质量,正如我们在上文中对集群所做的那样,这是没有意义的。集群情况下的回归系数FAsin(4)保证为非负。这是因为与簇权重矩阵中的列相对应的N个向量彼此是WiAareorthogonal。与宇宙权重矩阵Uiα中的列相对应的N向量不是正交的,不可接受地导致了许多负回归系数Fαs。因此,要在4-CPU(每个8核,2.60GHz)机器上运行一批NMF,800次采样,529Gb RAM和超线程(操作系统:Debian 3.2.84-2 x86 64GNU/Linux),这需要6-7天的时间(输入数据在【Kakushadze和Yu,2016b】之后“去噪”需要3-4天)。相比之下,要在每批中使用1000万个K-means实例来运行我们的3批*K-means(见第3.2小节),在一台具有16GB RAM(操作系统:64位Windows Server 2008 R2标准)的单CPU(四核,3.1GHz)机器上只需不到24小时。从这些数据可以明显看出,即使通过“去噪”改善了NMF,*K-均值在计算上比NMF便宜很多【Kakushadze和Yu,2016b】。此外,参见,例如,【Schulze等人,2015年】。尽管人们应该记住fn中的评论。28.2017b]。结果见表15。

22
kedemingshi 在职认证  发表于 2022-6-13 23:15:58
与外显子组数据一样,这里我们也只有少数宇宙特征对应于toknown突变过程,即CSig1,4,6,13,具有很高的相关性。因此,大多数宇宙特征对癌症类型聚集的基因组数据似乎没有解释力,这进一步表明大多数宇宙特征缺乏样本外稳定性。我们从exomedata获得的簇的样本外稳定性如何?检验它的一种方法是查看表12所示的集群内相关性和总体计量,但要查看【Kakushadze和Yu,2016b】和【Kakushadze和Yu,2017b】中使用的14种癌症类型的上述基因组数据。结果见表16。毫不奇怪,基因组数据(样本外)的fit质量不如外显子组数据(样本内)。然而,它是i)合理的,并且ii)明显优于宇宙签名提供的fit(表15)。此外,基于外显子组的11个簇对于G.X4(乳腺癌)、G.X8(肝癌)、G.X9(肺癌)和G.X14(肾细胞癌)的总体fit较差,而基于基因组的7个簇在相同的4种癌症类型中【Kakushadze和Yu,2017b】的总体fit较差,这也是一个很好的理由(详情参见【Kakushadze和Yu,2017b】。考虑到基于外显子组数据(X15,表12)和基因组数据(Kakushadze和Yu,2017b)的第7行,表15)的这种癌症类型的样本中,不太清楚为什么基于外显子组的11个簇没有更好的G.X7(胃癌)基因。因此,与NMF不同,*K-means聚类作为一种统计确定性方法,在样本中是稳定的。

23
何人来此 在职认证  发表于 2022-6-13 23:16:01
在这里,我们可以问,如果我们将相同的2个机器学习级别应用于NMF,就像那些位于k-means中的k-means之上的级别一样,使其具有统计确定性,会怎么样?答案是,在应用NMF时,人们已经使用了一种机器学习方法,这是大量样本的聚合形式(即单个NMF运行)。这在概念上类似于K-means中的FirstMachine学习水平。那么,我们可以问,如果我们通过比较大量这样的“平均值”,将第二个机器学习水平(如K-means)增加到NMF,会怎么样?一个简单、平淡无奇的答案是,这将使NMF计算变得令人望而却步,因为NMF在计算上已经很昂贵了,而且在第一台机器的学习水平上更是如此。K-means在计算上要便宜得多的原因是,K-means的基本构造块(在上面我们添加了两种机器学习方法)是普通的K-means,它比NMF便宜得多。这就是造成所有差异的原因。最后,让我们提到慢性髓系疾病的外显子组数据(121个样本,175个总计数)发表在【Papaemmanuil et al,2011】【Malcovati et al,因此,如上所述,我们运行了3批800个NMF样本。在每批中,800个样本通过非确定性聚类聚合(例如,通过k-means–参见,例如,【Kakushadzeand Yu,2017b】以获取详细讨论)。最终结果——按设计——是不确定的。此外,正如【Kakushadze和Yu,2017b】所述,NMF至少在某种程度上是伪装成集群的。事实上,对宇宙特征的目视检查表明,其中许多——尽管可能不是全部——都有群集子结构。这将在下一篇论文中进行更详细的讨论。

24
kedemingshi 在职认证  发表于 2022-6-13 23:16:05
此外,了解“R-突变”【Tomasetti等人,2017年】(另见其中的参考文献)与体细胞突变噪声之间的关系也很有趣。2011年),神经母细胞瘤(13个样本,298个总计数)[Sausen等人,2013年]。然而,这些数据非常稀少(即使在聚合后也有太多的零),因此我们明确将其排除在分析之外。对于我们在此分析的癌症类型以及其他癌症类型,还有更多未公布的数据可用,将我们的方法应用于这些数据,包括国际癌症基因组联盟(仍然禁止)的广泛基因组数据,将是非常有趣的。确认此处发布的结果全部或部分基于TCGA研究网络生成的数据:http://cancergenome.nih.gov/.AExome样本ID在本附录中,我们给出了样本ID以及我们使用的Exome数据的相应发布参考。我们将这些引用标记为H1、Z1等,并在源列的表1中使用这些标签。 急性淋巴细胞白血病(86份样本):o来源H1=【Holmfeldt等人,2013年】。样本ID的格式为SJHYPO*,其中*:001-D、002-D、004-D、005-D、006-D、009-D、009-R、012-D、013-D、014-D、016-D、019-D、020-D、022-D、024-D、026-D、029-D、032-D、036-D、037-D、039-D、040-D、041-D、042-D、044-D、045-D、046-D,047-D,051-D,052-D,052-R,055-D,056-D,116-D,117-D,119-D,120-D,123-D,124-D,125-D,126-D.o来源Z1=【Zhang等人,2012年】。

25
mingdashike22 在职认证  发表于 2022-6-13 23:16:08
样本ID的格式为SJTALL*,其中*为:001、002、003、004、005、006、007、008、009、011、012、013、169、192、208来源D1=【De Keersmaecker等人,2013】:TBR01、TBR03、TBR05、TBR06、TBR08、TLE02、TLE10、TLE109、TLE31、TLE33、TLE34、TLE39、TLE41、TLE42、TLE43、TLE50、TLE51、TLE54、TLE55、TLE57、TLE60、TLE61、TLE63、TLE64、TLE65、TLE66、TLE67、TLE68。 急性髓系白血病(190份样本):o来源T1=TCGA(见确认)。样本ID的格式为TCGA-AB-*,其中*为:2802、2803、2804、2805、2806、2807、2808、2809、2810、2811、2812、2813、2814、2816、2817、2818、2819、2820、2821、2822、2824、28252826、2827、2828、2829、2830、2831、2832、2835、2836、2837、2838、2839、2841、2842、2843、2844、2845、2846、2847、2849、28502851 2853、2854、2855、2857、2858、2859、2860、2861、2862、2863、2864、2865、2866、2867、, 2868, 2869, 2870, 2871, 2872, 2873, 2874,2875, 2876, 2877, 2878, 2879, 2880, 2881, 2882, 2883, 2884, 2885, 2886, 2887, 2888, 2889, 2890, 2891, 2892, 2893, 2894, 2895, 2896,2897, 2898, 2899, 2900, 2901, 2904, 2905, 2906, 2907, 2908, 2910, 2911, 2912, 2913, 2914, 2915, 2916, 2917, 2918, 2919, 2920, 2921,2922, 2923, 2924, 2925, 2926, 2927, 2928, 2929, 2930, 2931, 2932, 2933, 2934, 2935, 2936, 2937, 2938, 2939, 2940, 2941, 2943, 2945,2946, 2947, 2948, 2949, 2950, 2952, 2954, 2955, 2956, 2957, 2959, 2963, 2964, 2965, 2966, 2967, 2968, 2969, 2970, 2971, 2972, 2973,2974, 2975, 2976, 2977, 2978, 2979, 2980, 2981, 2982, 2983, 2984, 2985, 2986, 2987, 2988, 2989, 2990, 2991, 2992, 2993, 2994, 2995,2996, 2997, 2998, 2999, 3000, 3001, 3002, 3005, 3006, 3007, 3008, 3009, 3011, 3012. 肾上腺皮质癌(91个样本):o来源T2=TCGA(见确认)。

26
大多数88 在职认证  发表于 2022-6-13 23:16:11
示例ID的格式为TCGA-*,其中*为:OR-A5J1、OR-A5J2、OR-A5J3、OR-A5J4、OR-A5J5、OR-A5J6、OR-A5J7、OR-A5J8、OR-A5J9、OR-A5JA、OR-A5JB、OR-A5JC、OR-A5JD、OR-A5JE、OR-A5JF、OR-A5JG、OR-A5JH、OR-A5JI、OR-A5JJ、OR-A5JK、OR-A5JL、OR-A5JM、OR-A5JO、OR-A5JP或-A5JQ,或-A5JR,或-A5JS,或-A5JT,或-A5JU,或-A5JV,或-A5JW,或-A5JX,或-A5JY,或-A5JZ,或-A5K0,或-A5K1,或-A5K2,或-A5K3,或-A5K4,OR-A5K5、OR-A5K6、OR-A5K8、OR-A5K9、OR-A5KB、OR-A5KO、OR-A5KP、OR-A5KQ、ORA5KS、OR-A5KT、OR-A5KU、OR-A5KV、OR-A5KW、OR-A5KX、OR-A5KY、OR-A5KZ、OR-A5L1、OR-A5L2、OR-A5L3、OR-A5L4、OR-A5L5、OR-A5L6、OR-A5L8、OR-A5L9、OR-A5LA、OR-A5LB、OR-A5LC、OR-A5LD、OR-A5LE、OR-A5LF、OR-A5LG、OR-A5LH、OR-A5LI、OR-A5LJ、OR-A5LK、OR-A5LL、OR-A5LN、OR-A5LO、OR-A5LP、OR-A5LR、OR-A5LS、OR-A5LT、OU-A5PI、P6-A5OF,P6-A5OG、P6-A5OH、PA-A5YG、PK-A5H8、PK-A5H9、PK-A5HA、PK-A5HB、PK-A5HC。 B细胞淋巴瘤(24个样本):o来源M1=【Morin等人,2011年】。在DLBCL样本中,ID*从A到M(例如,DLBCL PatientC):07-35482,DLBCL Patient*,FL PatientA,FL009资料来源L1=【Love等人,2012年】:1060、1061、1065、1093、1096、1102、515、EB2。 良性肝肿瘤(40个样本):o来源P1=【Pilati等人,2014年】。样本ID的格式为CHC*,其中*:1023T、1124T、1315T、1328T、1329T、1337T、1382T、1383T、1424T、1425T、1428T、1432T、1434T、1439T、1488T、1489T、1665T、1666T、1854T、1916T、340T、361TB、462T、463T、464T、470T、471T、517T、575T、578T、603T、605T、623T、624T、674T、684T 7T、689T、846T、918T、976T。 膀胱癌(341份样本):o来源G1=【Guo等人,2013年】。

27
可人4 在职认证  发表于 2022-6-13 23:16:14
样本ID的形式为TCC+AF8-B**+AC0肿瘤,其中**(以下*代表+AC0-,例如,104*0=104+AC0-0,完整样本ID为TCC+AF8-B104+AC0-0+AC0肿瘤):10、100、101、102、103、104*0、104、105*0、105*1、105、106、107、109、11、110、111、112、114、13、14、15、16、17、18、19、2、20、21、22、23、24、25、34、37、41、43,45,47,5,50,52,54,55,56,57,58,59*0,59*1,59*3,59, 60, 61, 62*0, 63, 64, 65, 66*0, 66, 68, 70, 71,73, 74, 77, 78, 79, 8, 80*0, 80*1, 80*11, 80*13, 80*3, 80*4, 80*5, 80*7, 80*8, 80, 81*1, 81*2, 81, 82, 83, 84, 85*0, 85*2, 86, 87, 88,89*1, 89*10, 89*11, 89*12, 89*16, 89*3, 89*4, 89*5, 9, 90, 92, 96, 98, 99.o 源T3=TCGA(见确认)。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-22 17:35