|
现在,我们要强调的是,我们的结果是基于按癌症类型汇总的发生计数。这种方法的优点包括:i)数据比按癌症类型分类的样本噪音小得多;ii)它允许我们使用所有基因组数据,包括低计数的数据。在这方面,我们的方法可以很容易地应用于外显子组数据,我们将在其他地方报告这些数据,并将我们的分析扩展到单个癌症类型。本文的其余部分组织如下。在第2-4节中,我们回顾了我们借用的定量融资机制。第5节将此机制应用于取消签名。第6节讨论了基于14种癌症类型公布数据的实证结果。第7节讨论了我们的NMF结果。我们将在第8节简要总结。附录A列出了我们使用的基因组数据样本ID。附录B包含我们因子模型的R源代码。附录C包含一些法律术语。2样本协方差矩阵2。1样本数据在许多实际应用中,我们有N个具有可观测性的对象,每个对象的可观测性是通过d个观测值来测量的。结果数据是一个N×d矩阵,称之为Ris,其中的行对应于i=1,N、 这些列对应于标有bys=1,d、 一般来说,Ris中可能存在一些缺失的观察结果,即NAs。然而,出于我们的目的,这里只能假设没有NAs。以下是这些数据的一些例子。在财务方面,我们有N支股票,d个交易日,我们测量每日股票收益率。或者,例如,我标注了美国的大城市(或者邮政编码),s标注了年份,以及Risis暴力犯罪率percapita。
|