楼主: nandehutu2022
1364 33

[量化金融] 癌症特征的因子模型 [推广有奖]

21
何人来此 在职认证  发表于 2022-5-11 06:26:53
在这里,我们将遵循一种务实的方法,做一些简单的事情——数据中有太多噪音,否则做根本不起作用。因此,我们将简单地采用ris=ln(1+Gis)(26)这将处理Gis=0的情况;地理信息系统 1.我们有Ris≈ ln(地理信息系统),根据需要。现在,我们可以使用“最小化”和基于eRank的方法(有或没有基于Kb的变异)来构建癌症特征的统计因子模型,以确定癌症特征的数量K。事实上,为了实现复杂性和比较性的目的,下面我们将构建这样的因子模型,如Mumingboth(26)和Ris=Gis。令人高兴的是,结果在质量上是相似的。6实证结果6。1数据摘要在下面的实证分析中,我们仅使用已发表样本的基因组数据。表2中总结了这些数据,我们给出了总计数、样本数量和数据来源,如下所示:A1=[Alexandrov等人,2013b],A2=[Love等人,2012],B1=[Tirode等人,2014],C1=[Zhang等人,2013],D1=[NikZainal等人,2012],E1=[Puente等人,2011],E2=[Puente等人,2015],F1=[Chenget等人,2016],G1=[Wang等人,2014],H1=[Sung等人,2012],H2=[Fujimoto等人,2016],I1=[Imielinksi等人,2012],J1=[Jones等人,2012],K1=[Patch等人,2015],L1=[Waddell等人,2015],M1=[Gundem等人,2015],N1=[Scelo等人,2014]。附录A.6.2基因组数据结果在我们的基因组数据集中,我们有14种癌症类型。使用定义(26),我们采用“最小化”和基于eRank的方法(有无KBase)。以下讨论的重点是Gisand,除非另有说明,否则也适用于[G(α)]is。变异)用于确定癌症特征的数量。

22
能者818 在职认证  发表于 2022-5-11 06:26:56
我们使用R函数bio。埃朗克。pc()和bio。乔夫。附录B中的pc(),其改编自[Kakushadze and Yu,2016b]的附录A。结果总结在表3中。除非我们使用基于K的变量,否则K的值往往很低。如果我们将所有14种癌症类型的样本组合成一个“大”矩阵(在我们的例子中,尺寸为96×1389),那么基于eRank的方法得到K=2,基于“最小化”的方法得到K=1(无基于kb的变化)。如果我们将每种癌症类型内的所有样本汇总并在生成的96×14矩阵上运行,这些方法都会产生K=1。问题是,为什么会这样?答案很平淡。表4提供了平均成对相关性ψ(见脚注26)和样本相关矩阵ψij的前5个特征值。除了脑低级别胶质瘤、食管癌和胰腺癌(对于这些癌症类型,矩阵GIS中稀疏地填充着许多0),这些平均相关性相当高,并且与较高特征值之间存在很大差距。因此,第一个特征向量在光谱分解中占主导地位(14)。通过基于K的变异将其排除在外,则会产生较高的K值。然而,在一般情况下,我们预计较高的主成分在样本外不稳定。也就是说,如果我们基于两个或多个非重叠样本集来计算它们,就不能保证它们在不同的样本集之间是稳定的。因此,我们必须首先解决样本稳定性问题。6.2.1样本外(In)稳定性解决这一问题的一种便捷方法是检查每种癌症类型计算的第一个和更高的主要成分在不同癌症类型之间是否稳定。如上所述,设[G(α)]是用α标记的癌症类型的发生计数矩阵(对于我们的基因组数据,α取14个值)。

23
可人4 在职认证  发表于 2022-5-11 06:26:59
然后我们计算相应的矩阵[R(α)]isvia(26)和相关矩阵[ψ(α)]ij。设[V(α)](a)ibe为[ψ(α)]ij的第a主成分。然后,我们通过定义E(a)αα,定义了一个非常具有信息性的内积矩阵se(a)αβ=NXi=1[V(α)](a)i[V(β)](a)i(27)≡ 和| E(a)αβ|<1表示α6=β。这个矩阵可以被认为是衡量不同癌症类型之间第a主成分“相关”程度的一个指标。表5给出了a=1、2、3和α6=β的| E(a)αβ的总结(每个a有14×13/2=91个独立值)。为了便于说明,在第四行中,我们还总结了基于第二和第三主成分的内积的类似矩阵。从表5可以明显看出,从一种癌症类型到另一种癌症,第一个主成分非常稳定。然而,较高的主成分似乎相当不稳定。在本综述中,计算矩阵E(a)αβ的eRank(使用bio中的calc.eRank()子函数)是有用的。埃朗克。pc()函数,见附录B)。对于每个a,这是衡量14种癌症类型的主成分[V(α)](a)相互独立程度的指标:eRank越低,它们的独立性越低,从一种癌症类型到另一种癌症类型的稳定性越高。因此,对于Ea=eRank(E(a)αβ),我们得到E=1.31,E=9.49,E=10.59,和E2+3=15.54,其中E2+3基于上述第二和第三主成分的并集。基于上述情况,高主成分似乎是高度不稳定的。不同的是,一种癌症类型的高主成分(比第一种)显然对其他癌症类型的预测能力很小。6.2.2“总体”模式第一个主成分从一种癌症类型到另一种癌症类型高度稳定。表5中E(1)αβ的值大多在90%以上。

24
mingdashike22 在职认证  发表于 2022-5-11 06:27:03
这意味着我们有一个重要的“整体”模式。在金融方面,类似于这一模式的是所谓的“市场”模式,对应于大市场的整体运动,它影响所有股票(不同程度)——流入(流出)市场的现金倾向于推动股价上涨(下跌)。这是市场风险因素。为了缓解这一风险因素,例如,可以持有一个美元中性的股票组合(即对于多头和空头仓位的samedollar控股)。我们可以从这个类比中得出结论。我们可以把“整体”模式想成如下。我们总是可以把样本相关矩阵写成ψij=(1)- ρ) δij+ρuiuj+ij=ψij+ij(28)这里ρ=N(N-1) PNi,j=1;i6=jψij是平均成对相关性,ui≡ 1是单位N向量,Pni,j=1ij=0。在第零近似下,我们可以ij,即ψij≈ ψij。注意,ψij是一个单因子模型。其第一个主要组成部分u(1)i=ui/√N.它描述了“整体”模式,即所有突变类型的平均相关性。这意味着在第零近似下V(1)i≈ 当N很大时,在许多系统中,这实际上是一个很好的近似值。在我们的例子中,N=96,所以它足够大。表6给出了该项目的横截面总结|√NV(1)i-1 |(假设V(1)i被归一化,使得pni=1V(1)i>0)。这表明V(1)i≈ U(1)iis确实是一个非常好的近似值,毫不奇怪,我们的总出现次数越多,这个近似值就越好。6.2.3分解“整体”模式“整体”模式清楚地存在于所有癌症类型中。因此,在对数据进行任何分析之前,将其全部考虑在内是有意义的。需要明确的是,这并不意味着在每种癌症类型中都有较高的主成分不在样本范围内。

25
mingdashike22 在职认证  发表于 2022-5-11 06:27:06
我们将在下面回到这个问题。例如,参见[Bouchaud and Potters,2011]及其参考文献。注意,ψij的特征值对应于U(1)iisλ*= 1+ρ(N)- 1).排除“整体”模式只会在横截面上贬低矩阵Ris,即,而不是Riswe useRis=Ris- Rs=Ris-NNXj=1Rjs(29)表7和表8给出了结果。单个癌症类型的样本相关矩阵[ψ(α)]ij的第一主成分之间成对内积的绝对值(以1%为单位)汇总如下:最小值=0.122,第一个Qu.=10.95,中位数=27.06,平均值=30.83,第三个Qu.=42.86,最大值=90.74,标准差=22.89,MAD=23.55,和E=7.06。这些结果让我们得出以下重要结论:除了“整体”模式之外,这14种癌症类型似乎有共同的特征。值E=7.06表明这些签名的数量K应该大约为7。这与表7最后一行的值一致。然而,表8清楚地表明,我们在第一个特征值和更高的特征值之间不再有很大的差距,因此更高的主成分在很大程度上起作用,很难期望样本外的稳定性。6.2.4无日志迄今为止,我们一直在使用基于日志的定义(26)。现在让我们检查一下,如果我们使用Ris=GIS定义,会发生什么。结果见表9和表10。总体而言,平均相关系数降低,K值增加。单个癌症类型的样本相关矩阵[ψ(α)]ij的第一个主成分之间成对内积的绝对值(单位为1%)的汇总如下:Min=71.37,1st Qu.=83.86,Median=96.53,Mean=92.05,3rd Qu.=97.95,Max=99.59,StDev=8.023,MAD=2.934,andE=1.46。

26
kedemingshi 在职认证  发表于 2022-5-11 06:27:09
这些结果表明,基于对数的定义(26)确实更有效,正如我们根据计数分布的扭曲性质所预期的那样。6.2.5没有考虑到“整体”模式的日志为了完整性,让我们也看看如果我们使用Ris=GIS定义并通过横截面贬低定义的Ris来考虑到“整体”模式会发生什么。结果见表11和表12。单个癌症类型的样本相关矩阵[ψ(α)]ij的第一个主要成分之间成对内积的绝对值(单位为1%)的总结如下:最小值=0.960,第一个Qu.=31.80,中位数=44.93,平均值=45.67,第三个Qu.=59.74,最大值=86.75,标准偏差=20.84,和E=5.61。这些结果表明,在并没有日志定义的情况下,我们捕获的独立签名更少。这并不奇怪——计数分布的扭曲性质掩盖了潜在的特征。一种方法是,尽管去掉了“整体”模式,但对于几种癌症类型,表12中仍然存在相当大的平均相关性。7.非负矩阵分解7。1首先,使用统计因子模型方法的乘法模型允许我们:i)乘以因子的数量k;以及ii)移除“整体”模式。通过基于eRank的方法预测的排除“整体”模式的因素数量与通过第6.2.3小节获得的结果一致。然而,先验的统计因子模型方法似乎缺乏生物学解释。如果我们直接将其应用于无日志定义RIS=Gis(不考虑“总体”模式),矩阵OhmIa和Fas通常都有负面因素。

27
kedemingshi 在职认证  发表于 2022-5-11 06:27:13
如果我们将其应用于基于对数的定义(26),那么我们可以通过(回想一下,σi是样本方差,而factormodel是相关矩阵,这就是为什么σi出现在指数中)bGis=expσiεis+σiKXA=1来重新指数化(11)OhmiAFAs!=γisKYA=1(ZAs)νiA(30),其中γis=exp(σiεis),ZAs=exp(FAs)和νiA=σiOhm伊莉亚。因此,暂时忽略“乘法误差”项γis,BGI提供了矩阵1+Gis的正分解,除了它是乘法分解(与NMF中的加法分解相反)。所以,这里不是“权重”,而是“曝光”ZA的幂。事实上,这样的乘法模型可能不会太牵强。DNA内部的过程似乎有“指数”趋势。我们打算在即将发表的论文中更详细地讨论这种方法。取而代之的是,我们将把从分解“整体”模式中得到的改进应用到NMF中。7.2 NMF:香草计数矩阵从Gis中提取癌症特征的常用方法[Alexandrov等人,2013a]是通过非负矩阵分解(NMF)[Paatero和Tapper,1994],[Lee和Seung,1999]。在NMF下,矩阵G近似为viaG≈ 其中WiAis是N×K矩阵,has是K×d矩阵,W和H都是非负的。NMF的吸引力在于其生物学解释,即矩阵W的K列被解释为K癌信号对N=96突变类别的贡献权重,矩阵H的列被解释为每个样本中K信号的暴露。通常,NMF要么应用于单个癌症类型,要么应用于通过组合所有癌症类型的样本而获得的“大矩阵”。在这里,我们以一种新的方式将NMF应用于通过按癌症类型聚合样本而获得的96×14矩阵。

28
大多数88 在职认证  发表于 2022-5-11 06:27:16
这种方法的优点是,我们可以包含低计数样本。从技术上讲,我们应该减去定义中日志中添加的1(26)。然后我们必须处理负值。这将模糊我们在这里的讨论,没有任何益处,也不会破坏结果(样本中)的稳定性,这样我们还可以避免样本数量大时可能出现的不希望出现的签名扩散。我们使用有机R代码来运行NMF(并检查它是否产生与R包“NMF”相同的结果),https://cran.r-project.org/package=NMF).我们使用随机启动的W和H为每个“采样”运行100个“采样”的NMF。图3给出了香草基质G和重构基质G之间的皮尔逊相关性*= W H代表5到9个签名。对于K=8的特征码,可以达到最高的重建精度,这是我们在上面对普通矩阵(K=7加上“整体”模式)的预期。图4-11描绘了8个签名。对于每个特征,W列(96个突变类别中的每一个)中的相应权重是100个“抽样”的平均值,误差条是标准偏差。我们将在下面讨论签名的解释。这里我们注意到,香草矩阵的误差条非常大。此外,签名8在大多数癌症类型中都有大量存在。这是“整体”模式下的最大噪音。图12总结了签名贡献。7.3 NMF:“整体”模式被分解。现在,我们使用“整体”模式被分解的数据,重复上一小节的NMF程序。为此,我们简单地对列式降阶矩阵Ris进行指数化,即取egis=exp(Ris)(31)并运行NMF oneGis。

29
kedemingshi 在职认证  发表于 2022-5-11 06:27:19
我们可以通过采用EGIS=exp(平均值(Ris)+Ris)、oreGis=exp(中值(Ris)+Ris)、oreGis=exp(中值(Rs)+Ris)(回想一下,RSI是Ris的列平均值的向量)等进行整体归一化,使其看起来更像原始矩阵Gis,然而,这并不影响通过NMF提取的特征。再次,从技术上讲,在重新指数化后,我们应该减去定义(26)中增加的额外1(假设我们包括上述所有标准化之一)。然而,这似乎对结果影响不大。图13给出了香草基质G和由此构建的基质G之间的皮尔逊相关性*= W H代表4到8个签名。K=7签名的重建精度最高,这是我们在上文中预期的。图14-20绘制了7个特征,错误条是100次“抽样”后每个突变类别的标准偏差。这里我们注意到,“去噪”矩阵G(图14-20)的误差条比普通矩阵G(图4-11)的误差条小得多,这是因为考虑了“整体”模式。这种无处不在的签名通常会降低它们的实用性。每次“采样”都会找到一个局部最优值——NMF不能保证全局收敛。该范围基于表3和表7最后一行中的K值。我们使用k-means聚类对100个“样本”中的结果签名进行排序。这是因为W的每一列都是权重,将其归一化为1。图21总结了签名贡献。

30
何人来此 在职认证  发表于 2022-5-11 06:27:22
我们的特征码1-4是之前已知的特征码,即[Nik Zainal等人,2012]的突变特征码1(自发胞嘧啶脱氨)、2+13(APOBEC介导的胞嘧啶脱氨)、4(与烟草致癌相关的暴露)和17(出现在食道癌、乳腺癌、肝癌、肺腺癌、B细胞淋巴瘤、胃癌和黑色素瘤中;突变过程未知),[Alexandrov等人,2013b]。我们的签名5-7是新的。新的信号5在肝癌中占主导地位(贡献率超过96%),几乎没有峰值变异性。新的特征6到一个较低的去卵巢化肾细胞癌(贡献超过70%)。新的信号7主要出现在骨癌、脑低级别胶质瘤和髓母细胞瘤(以及其他5种程度较轻的癌症)。超显性肝癌的特征令人兴奋。表13和14给出了7个签名的权重和误差。8结束语o样品外(内)稳定性。这是任何基于统计的方法(包括NMF)的症结所在。通常,“稳定性”是通过扰动矩阵G并检查签名是否稳定来解决的。然而,这并不能解决样本外稳定性问题。样本外稳定性是众所周知的,是定量交易中的关键。由于有一个模型涉及时间序列和预测,如果给定的模型缺乏样本外稳定性,它几乎是无用的。这是因为时间只向一个方向流动,如果使用基于过去某个时间段计算的参数建立的模型在未来某个时间段(即样本外)表现不佳,则该模型没有预测(即预测)能力。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-2 10:57