楼主: nandehutu2022
1365 33

[量化金融] 癌症特征的因子模型 [推广有奖]

11
大多数88 在职认证  发表于 2022-5-11 06:26:17
现在,我们要强调的是,我们的结果是基于按癌症类型汇总的发生计数。这种方法的优点包括:i)数据比按癌症类型分类的样本噪音小得多;ii)它允许我们使用所有基因组数据,包括低计数的数据。在这方面,我们的方法可以很容易地应用于外显子组数据,我们将在其他地方报告这些数据,并将我们的分析扩展到单个癌症类型。本文的其余部分组织如下。在第2-4节中,我们回顾了我们借用的定量融资机制。第5节将此机制应用于取消签名。第6节讨论了基于14种癌症类型公布数据的实证结果。第7节讨论了我们的NMF结果。我们将在第8节简要总结。附录A列出了我们使用的基因组数据样本ID。附录B包含我们因子模型的R源代码。附录C包含一些法律术语。2样本协方差矩阵2。1样本数据在许多实际应用中,我们有N个具有可观测性的对象,每个对象的可观测性是通过d个观测值来测量的。结果数据是一个N×d矩阵,称之为Ris,其中的行对应于i=1,N、 这些列对应于标有bys=1,d、 一般来说,Ris中可能存在一些缺失的观察结果,即NAs。然而,出于我们的目的,这里只能假设没有NAs。以下是这些数据的一些例子。在财务方面,我们有N支股票,d个交易日,我们测量每日股票收益率。或者,例如,我标注了美国的大城市(或者邮政编码),s标注了年份,以及Risis暴力犯罪率percapita。

12
nandehutu2022 在职认证  发表于 2022-5-11 06:26:20
在本文的上下文中,我们有N=96突变类型发生各种类型的癌症,d是收集样本的数量,Risis(相关–见下文)是样本s中突变类型i的发生计数。2.2序列协方差和相关性我们可以将矩阵Risas N序列视为d=M+1观察值。样本协方差矩阵(SCM)定义为成对序列的N×N矩阵。交易日指股票市场开放的一天。例如,所谓的收盘回报率,即从昨天收盘价到今天收盘价的回报率。该回报可定义为Ris=Pis/Pi(s+1)- 1或Ris=ln(Pis/Pi,(s+1))(用于日常回报,通常为| Ris | 1,所以这两个定义之间的差异很大)。进一步的细节是,收盘价Pis,Pi,(s+1)针对任何分割和股息进行了充分调整。我们交替使用“突变类型”和“突变类别”。在我们上面的财务示例中,s标签日期在N个时间序列中。更一般地说,风险行不一定是时间序列。例如,在癌症突变的背景下,我们正在处理一系列样本(不涉及时间或年代)。在下面的内容中,我们将在一般上下文中使用调整的“序列”(无论是日期、样本等),不一定用于时间序列。协方差:Cij=MM+1Xs=1XisXjs(1),其中Xis=Ris- 里亚尔连续降级的数量:里亚尔=M+1PM+1s=1Ris。SCM包含关于表征N个对象的数量的重要信息,即:i)序列方差Cii=σi,用于测量序列方差;以及ii)不同系列(I6=j)之间的系列成对相关性ψij。这里,ψij=σiσjCij=MM+1Xs=1YisYjs(2)是样本相关矩阵,而Yis=Xis/σi。注意,ψii≡ 1.当M<N时,Cijis是单数的:我们有pm+1s=1Xis=0,所以矩阵xis中只有M列是线性独立的。

13
能者818 在职认证  发表于 2022-5-11 06:26:23
让我们去掉最后一列:Xi,M+1=-PMs=1Xis。然后我们可以通过前M列来表示Cij:Cij=MXs,s=1XisφssXjs(3)这里φss=(δss+usus)/M是非奇异的M×M矩阵(s,s=1,…,M);我们≡ 1是单位M向量。注意,φssis是一个单因素模型(见下文)。类似地,ψij=MXs,s=1YisφssYjs(4)2.3样本外(In)稳定性假设我们基于一组——称之为集合a——的d观测值计算SCM。假设现在我们根据一个不同的集合(称为集合B)计算SCM,集合a和集合B是不重叠的。通常,除非 N、 这两种计算中SCM的对角线元素可能有很大的不同。这被称为样本相关性的样本外不稳定性。另一方面,样本方差在样本外往往更稳定,在许多情况下,即使M N.考虑这一点的一种方法是,注意cii=MPM+1s=1Xis,因此,如果连续减少的量xis(准)正态分布在每个系列和M中 1,那么CII应该是相对稳定的。Cij的整体标准化,即(1)分母中的M(无偏估计)与M+1(最大似然估计),对于我们这里的目的来说并不重要。在许多情况下,M 1.这种说法通常被认为来自经验证据。然而,这在理论上是很好理解的。我们总是可以将连续降级的收益率旋转到正交的基础上,并重新调整它们的比例,使其具有单位序列方差。那么真正的协方差矩阵就是N×N矩阵。根据白音定理[Bai and Yin,1993],SCM的最小和最大特征值的极限为λmin=(1)-√y) λmax=(1)+√y) ,其中y=N/M是固定的,N,M→ ∞.

14
大多数88 在职认证  发表于 2022-5-11 06:26:27
所以对于M,N 1.我们一定要有我 N对于所有特征值接近1.2.4相关性,而不是协方差,在涉及SCM的许多应用中,它必须是可逆的,而且是样本外稳定的。如上所述,在许多情况下,SCM不满足这些要求,可以用构造的矩阵来代替它,从而使其更加精确和稳定。然而,在实践中,建模样本相关矩阵ψij而不是Cij是很方便的,原因有二。首先,由于样本方差相对稳定且易于计算,因此无需对其建模;需要建模的是成对关联ψij(i6=j)。第二,在许多情况下,样本方差具有扭曲的横截面(例如,(准)对数正态)分布,正值量的情况通常如此。因此,将σiout作为SCM的因子是很方便的,即使用样本相关矩阵ψij=Cij/σiσj。其对角线元素非常均匀(ψii)≡ 1) ,和theo fff-对角线元素ψij(i6=j)取值(-1,1)分布紧密。我们可以将ψij视为归一化数量eris=Ris/σi的样本协方差矩阵,即ψij=Cov(eRi,eRj)=Cor(Ri,Rj)。因此,在接下来的内容中,我们将始终使用ψijandeRis,SCM将参考样本相关矩阵ψij。三因子模型因子模型是构造ψij的非奇异替换Γij的常用方法:Γij=ξiδij+KXA,B=1OhmiAΦABOhm这里的jB(5):ξ是特定(又称特质)方差;OhmIa是一个N×K因子载荷矩阵;ΦABis是K×K因子协方差矩阵(FCM),a,B=1,K.系数K的数量 N使FCM比SCM更稳定。

15
kedemingshi 在职认证  发表于 2022-5-11 06:26:31
也就是说,SCM的对角元素(即成对相关性ψij,i6=j)是通过K因子fAs的贡献来建模的,而SCM的对角元素(即ψii≡ 1) 从因子和纯对角线特定方差ξi中获得贡献。这对应于通过矩阵Υissuch建模:Υis=χis+KXA=1OhmiAfAs(6)Cov(χi,χj)=ξiδij(7)Cov(χi,fA)=0(8)Cov(fA,fB)=ΦAB(9)Cov(Υi,Υj)=Γij(10)这是必需的,例如,在金融方面,在股票投资组合优化的背景下,包括均值方差优化[Markowitz,1952],夏普比率最大化[Sharpe,1994]等。在本文中,“横截面”指“指数i”。如上所述,Cov(·,·)是序列协方差。Γiji的一个很好的特点是,如果FCM是正定义的,则它是正定义的(因此是可逆的),假设所有ξi>0。我们可以把(6)看作分解的近似值,即is=εis+KXA=1OhmiAfAs(11),其中,假设Byeris是一个N×d矩阵,基本上由线性标记因子模型描述,Fas是因子。然后ε对应于“误差”项,即与线性因子模型的偏差。注意,通常ε为6=χ为。因此,通常矩阵Cov(εi,εj)不是对角的,协方差Cov(εi,fA)也不会消失。然而,近似ERISVIAΥisis是有用的,因为构建供应链的因素模型(5)涉及定义OhmiA,然后我们可以使用它来进一步计算因子fAs,例如通过最小二乘法,即通过最小化“二次误差”PNi=1εis→ 最小值。根据定义,这相当于风险的横截面线性回归OhmiA(不含截距),其中Fis是回归系数,而ε是回归残差。所以,我们需要构造Γij。3.1“二进制”和“模拟”因子为了构建因子模型,我们需要定义因子负荷Ohm伊莉亚。

16
何人来此 在职认证  发表于 2022-5-11 06:26:34
在分解(11)的上下文中OhmIak只是解释变量。问题是如何挑选它们。这不是一个反问句。因此,假设我们可以通过二进制分类法对N个对象进行分类,即每个对象都属于一个且仅属于一个“集群”。如果objectscan基于一些相似性标准被分组为“集群”,这可能是可能的。例如,在股票的情况下,可以将其分为部门、行业、子行业等。如果可以进行此类分组,那么我们可以将解释变量作为OhmiA=δS(i),A,其中S将我们的N个对象映射到K个“簇”:S:{1,…,N}→ {1,…,K}。即。,OhmiA=1,如果i标记的对象属于A标记的“簇”;否则OhmiA=0。这些“二元”因素基于对象在“集群”中的成员身份。如果无法实现二元分类,那么我们可以尝试使用对象的一些测量或估计属性来填充因子加载的列。我们可以将其称为“模拟”因子,因为它们通常缺乏任何“二元”或“聚类”结构,并表征了N个对象的整个横截面。例如,在股票的情况下,此类“模拟”因素可以基于公司的规模(市值)、收益、账面价值等。即使可以定义一些“模拟”因素,它们可能并不总是很好的解释变量[Kakushadzeand Yu,2016a],因此在尝试将其用作Ohm伊莉亚。为了便于注释,我们省略了序列协方差Cov(·,·)中的指数s。为将军Ohmi有一些微妙之处需要对回归进行非平凡的修改——详见[Kakushadze and Yu,2016a]。

17
何人来此 在职认证  发表于 2022-5-11 06:26:39
就我们的目的而言,这种微妙之处并不存在。就股票而言,此类“模拟”因素被称为“风格因素”。3.2统计因素模型在许多应用中,上述“二元”和“模拟”因素无法达到或不可靠。在这种情况下,我们可以求助于统计因子模型[Kakushadze和Yu,2016b]。这个想法很简单。我们有数据。如果我们建造Ohm我是基于这些数据而没有其他输入的吗?也就是说,我们必须得到一个N×d矩阵,然后以某种方式将其提取为一个较小的N×K矩阵。问题是K应该是什么?这正是通过(5)中定义的样本相关矩阵ψij的因子模型近似成为有用工具的地方。统计因子模型背后的想法很简单。设V(a)i,a=1,N、 形成正交基的ψij的主分量xj=1ψijV(a)j=λ(a)V(a)i(12)NXi=1V(a)iV(b)i=δab(13),使得特征值λ(a)按递减顺序排列:λ(1)>λ(2)>。更准确地说,一些特征值可能是退化的。对于一般(足够大的)数据集,正特征值是非退化的,这一点在下文中并不关键。然而,我们可以有多个零特征值。通常,非方差特征值M的数量,其中,如上所述,d=M+1是每个系列中观测的数量。因此,我们有(假设M<N;否则M被下面的N替换):ψij=MXa=1V(a)iλ(a)V(a)j(14)。这类似于具有对角因子协方差矩阵的因子模型(5)。然而,缺少具体的差异。这可以通过指出较高的主成分在(14)中贡献较小的权重(即特征值)来纠正。

18
可人4 在职认证  发表于 2022-5-11 06:26:42
因此,我们可以简单地只保留(14)和中的前K个主成分,其中K<M,并替换掉M的对角线贡献-K通过特定方差得出的更高主成分:Γij=ξiδij+KXA=1λ(A)V(A)iV(A)j(15)ξi=1-KXA=1λ(A)V(A)i(16) 如果某些序列是100%成对(反)相关的,这个数字可能会更小。同样,对于通用数据集——这在这里并不重要——情况并非如此。这对应于采用以下形式的因子载荷矩阵和因子协方差矩阵OhmiA=√λ(A)V(A)i,A=1,K(17)ΦAB=δAB(18)这种结构非常简单。然而,K应该是什么?[Kakushadze and Yu,2016b]中讨论了两种简单的确定K的方法,其中还给出了用于构建统计因子模型的源代码。我们在此简要回顾一下。4固定因子数当K=M时,我们有Γij=ψij(当M<N时为单数)。因此,我们必须有K≤ 那么,什么是Kmax?什么是Kmin(除了现有的Kmin=1)?做复杂而复杂的事情可能很有诱惑力。我们不会在这里这样做。相反,我们将采取务实的做法。[Kakushadze,2015]中提出了一种简单的(“基于最小化”的)算法。我们在下面回顾一下,然后给出了另一个基于eRank(有效秩)的简单算法。4.1“最小化”算法这个想法很简单[Kakushadze,2015]。这是基于这样一个观察结果,即当Kapproaches M时,min(ξi)变为0(即,总方差Γii越来越小)≡ 1归因于特定方差,其中越来越多的归因于非因子),而当K接近0时,最大值(ξi)变为1(即,总方差中越来越少的归因于因子,越来越多的归因于特定方差)。

19
nandehutu2022 在职认证  发表于 2022-5-11 06:26:45
因此,我们可以将K定义如下:|g(K)- 1| → min(19)g(K)=qmin(ξi)+qmax(ξi)(20)这种简单的算法在实际金融应用中效果良好,参见[Kakushadze,2015],[Kakushadze and Yu,2016b]。计算统计因子模型的开源R代码(15)利用这种基于“最小化”的算法来确定因子K的数量,见[Kakushadze and Yu,2016b]的附录A。4.2有效的Rankan另一个简单方法是设置[Kakushadze and Yu,2016b]K=Round(eRank(ψ))(21)这里Round(·可以被floor(·)=b·c代替。这里eRank(Z)是有效的等级[Roy and Vetterli,2007]对称半正定义矩阵Z(我们在这里使用它)。它定义为秩(Z)=exp(H)(22)H=-LXa=1paln(pa)(23)pa=λ(a)PLb=1λ(b)(24),其中λ(a)是Z的L个正特征值,H具有(香农a.k.a.谱)熵的含义[Campbell,1960],[Yang等人,2005]。eRank(Z)的意思是,它是矩阵Z的有效维数的一种度量,它不一定与其正值的数量L相同,但通常更低。这是因为许多序列可能存在明显的相关性(表现为特征值之间的巨大差距,见下文),从而进一步降低了相关矩阵的有效维数。4.3变量当平均相关ψ=NPNi,j=1ψij较高时,“最小化”算法和基于eRank的算法都可以产生较低的K值(包括1)。这是因为在这种情况下λ(1) 1.第一和第二高价值之间存在巨大差距。为了避免这种情况,我们可以定义K=K+1,其中K是通过矩阵ψij=MXa=2V(a)iλ(a)V(a)j(25)的“最小化”或基于eRank的算法定义的,也就是说,我们只需删除第一个特征对,确定K的相应值,并向其添加1。

20
mingdashike22 在职认证  发表于 2022-5-11 06:26:49
计算统计因子模型(15)的开源R代码,用于计算“最小化”和基于eRank的算法(无论是否使用基于K的定义),[Kakushadze and Yu,2016b]的附录A中给出了基于K的定义。5癌症特征的应用现在我们准备将上述机制应用于癌症特征。我们的基本数据由一个矩阵组成——称之为Gis——其元素是i=1,N=96在标有s=1的样品中,d、 更准确地说,我们可以使用一个矩阵,它结合了不同癌症类型的数据;或者,我们也可以选择使用单个矩阵[G(α)]is,相反,我们可以定义ψ=N(N-1) PNi,j=1;i6=j.因为N 1.这种差异无关紧要。式中:α=1,n标签n不同的癌症类型;如前所述,i=1,N=96;ands=1,d(α)。这里d(α)是用α标记的癌症类型的样本数量。组合矩阵GIS只需将矩阵[G(α)]按列相加即可得到。我们将在下面讨论这种数据结构的一个方面。我们能做的最简单的事情就是在我们与Gis(或[G(α)]is的讨论中识别矩阵RIS。然而,这可能不是最理想的选择。问题是这个。矩阵元素由非负发生计数填充。样本量大的非负量往往具有高值长尾的偏态分布。也就是说,这种分布不是正态分布,但(在许多情况下)大致为对数正态分布。解决这个问题的一个简单方法是用地理信息系统(而不是地理信息系统本身)的(自然)对数来识别风险。这里的一个小问题是,GIS的某些元素可能是0。我们可以做很多复杂甚至复杂的事情来处理这个问题。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-2 15:43