相似文件
换一批
经管之家送您一份
应届毕业生专属福利!
求职就业群
感谢您参与论坛问题回答
经管之家送您两个论坛币!
+2 论坛币
本文涵盖了Prism中可用的生存分析 方法,包括Kaplan-Meier生存估计以及使用Cox比例风险回归进行生存分析 。这两种方法截然不同,它们在各自的页面上都有详细的解释。
生存分析的基本概念 Prism 中的生存分析方法 如何进行Kaplan-Meier(非参数)生存分析 Kaplan-Meier 生存分析的结果 如何进行Cox比例风险回归 Cox 比例风险回归的结果
Prism 中的生存分析方法
本文讨论了Prism中用于进行生存分析的各种不同方法所涉及的理论和数学知识。
Kaplan-Meier( 非参数)生存分析 Cox 回归(Cox比例风险模型 )
Kaplan-Meier( 非参数)生存分析
Kaplan-Meier 生存估计法是以两位科学家——Edward Kaplan和PaulMeier的名字命名的,他们各自独立地提出了这种统计方法(具体描述如下)。他们分别向《美国统计协会杂志》提交了这一概念,随后在编辑(John Tukey)的建议下将他们的工作合并,使这种分析方法得到了广泛认可。
在Prism提供的两种生存分析方法中,利用Kaplan-Meier(乘积限)估计量生成生存曲线的非参数方法更容易计算,本节的其余部分详细介绍了如何手动进行这些计算。幸运的是,Prism会为您处理所有这些数学问题,所以您所需要做的就是输入您的数据;Prism会处理剩下的事情。
Kaplan-Meier 生存分析的数学原理
为了演示Kaplan-Meier生存分析中所使用的计算方法,考虑以下生存数据:
这份数据代表了一项包含20名参与者的研究,记录了每个参与者的随访时间,以及每个参与者是否经历了关注事件或被删失(这与在讨论删失的部分中用于生成可视化的数据相同)。
使用Kaplan-Meier方法手动生成生存曲线的第一步是按随 访时间的升序对数据进行排序(Prism在后台会这样做,因此在Prism中进行Kaplan-Meier分析时,您无需这样准备数据)。下面的表格展示了重新排列 后的数据:
既然数据已经妥善排列,Kaplan-Meier方法可用于估计每个事件发生时间点的生存概率。要手动进行此操作,我们需要确定每个时间点的几条信息,包括:
在时间t时的风险人数(Nt) 在时间t时的事件数量(Et) 在时间t时的删失观察数量 (Ct)
[size=14.6667px]
在个体的时间尚未流逝(时间=0)时,我们有20名总参与者(全部假设为“处于风险中”),并且在时间为零时没有死亡或删失观察。因此,时间0时的生存概率为1(或100%)。
接下来,我们为有信息的每个流逝时间添加一行。重要的是要注意,在时间t经历时间或被删失的个体在时间t之后仍被视为处于风险中。然而,因为我们要么知道他们经历了事件,要么不知道(因为他们被删失了),他们在任何后续时间点都不再计入风险人数。让我们通过向表格添加一行来开始:
查看原始数据,我们看到在流逝时间为1时,有一个事件(参与者03)和一个删失观察(参与者08)。利用这些信息,我们可以使用以下公式计算这个流逝时间的生存概率:
根据上表的数字,我们可以计算出生存概率为:
这意味着在该人群中,一个月后估计的生存概率(不经历关注事件的概率)为95%。请注意,删失观察的数量(Ct)在计算生存概率时并未使用(因为我们不知道这些个体实际何时经历了事件)。然而,在计算下一个时间点的风险人数时会用到它。当流逝时间t=1时,我们有Nt =20,一个事件,和一个观察。这意味着在接下来的流逝时间点(t=2),我们将有20-1-1=18人处于发风险中。已为这个流逝时间点添加了新的一行:
和之前一样,生存概率的计算如下:
和之前一样,这意味着在该人群中两个月后估计的生存概率约为69%。表格的其余部分可以用类似的方式完成:
利用上表中的运行时间和生存概率值,可以绘制出阶梯生存曲线,如下图所示:
前文提到,删失观察值(censored observations)并不直接用于计算生存概率的公式中,但在确定下一个时间点的风险人数时会用到。这可以通过查看流逝时间为4和5时的计算生存概率在表格中看到,也可以通过查看时间跟随(Time followed)为5时的曲线图看到。在曲线图中,红色刻度线表示在这个时间点有一个观察值被删失,但由于曲线在此处没有垂直下降,很明显在这个时间点没有事件发生。同样,在表格中,由于流逝时间为5时的事件数量(Et) 为零,计算出的生存概率在这个时间点和前一个时间点之间没有变化。
在Prism中进行这种分析非常简单,Prism会自动计算并报告所有这些值以及估计生存概率的图表。
Cox 回归(Cox比例风险模型)
当对伴有多个预测变量(包括分类或连续预测变量)的时间-事件响应变量数据进行生存分析时,不能使用非参数方法,例如使用Kaplan-Meier(乘积限)估计量。另一种方法是使用Cox比例风险回归,这是一种半参数技术。以下介绍了Cox回归的背景和数学理论。
A WORD OF CAUTION ! Cox 比例风险回归是在Prism9.3.0中引入的PrismLabs功能。这种分析作为生存分析的行业标准已经非常成熟,并且允许对多种不同类型的预测变量(包括分类和连续变量)及其对生存的影响进行复杂的研究。我们已经做了大量工作以确保Prism生成的结果是准确的,并且在本文中,您将找到对这些结果如何生成的大量解释,以及如何解释这些结果的基本指南。
HOWEVER ,Cox回归——可以说比Prism中可用的任何其他分析都更高级。在使用Cox回归分析您的数据之前,请确保您了解生存分析的基础知识(即Kaplan-Meier生存估计和用于比较生存曲线的各种检验:对数秩检验、趋势对数秩检验和Gehan-Breslow-Wilcoxon检验)。Cox回归还高度依赖于能够支持其他形式的多重回归(如多元线性和多元逻辑回归)的统计概念。即使对所有这些不同概念都有了解,最好还是向统计学 家寻求知道和帮助来处理这些复杂技术。
A SEMI-PARAMETRICANALYSIS OF SURVIVAL DATA ,首先,让我们思考一下“半参数”是什么意思?在前面的章节中,我们研究了为什么线性回归不能用于分析生存数据的原因,其中一个原因是,生存数据(生存时间)通常是高度偏态的,并且必须定义为正值(生存时间不能为负)。线性回归严重依赖于正态(高斯)分布,但这种分布在描述生存数据时效果不佳。显然,正态分布是一种对称分布,并且可以包含负值。相反,其他分布可以用于分析生存数据(例如韦伯分布、指数分布、对数正态分布或其他分布)。在所有这些分布中,当分布被指定时,这些分析被认为是“参数性的”,因为它们假设数据来自一个可以通过严格的参数集来定义的分布(为了更准确,这些分析会对所讨论的危险函数的形式做出假设,这将在后面讨论)。Cox比例风险回归并不对时间数据的分布做出这样的假设,但它对预测变量对生存时间的影响做出了参数假设,因此它是一种“半参数”技术。
那么,如果Cox比例风险不假设生存数据的分布,它如何能够估计生存曲线(一个提供生存概率作为时间函数的函数)呢?后续将深入讨论这种技术背后的数学原理,但简而言之,答案就在分析本身的名称中:“比例风险”。为了理解这意味着什么,让我们首先看看什么是风险率。
风险和风险率
让我们首先定义风险率(hazard rate)这个术语,它是指在单位时间内发生关注事件的频率,前提是该事件在该时间之前尚未发生。较高的风险率意味着在给定时间内会发生更多事件,而较低的风险率意味着在给定时间内发生的事件较少。重要的是,风险会随时间变化。以下图为例:
在这张图表中,风险开始时较高,然后在第一个时间段内下降。接着它上升到一个小峰值然后再次下降,最后在观察期结束时通过不同的速率再次上升。对这张图表的解释是,在时间点A经历事件的风险高于在B点,在C点经历事件的风险低于在A点,但高于在B点,而在D点的风险高于在A、B或C点。
虽然这张图表是理论性的,但它与人类寿命预期中的实际风险率有一些相似之处。在出生时,死亡的风险率实际上比出生后不久要高得多。这种风险率在青少年后期迅速增加(男性和女性的增长略有不同),然后随着年龄的增长继续增加。
需要了解的是风险和时间如何与事件信息相关。当事件发生时间的数据被视为离散时(即事件只能在特定的时间点数内发生),那么风险的定义就相对简单。风险,用h(t)表示,定义为:
其中“T”是一个变量,表示事件可能发生的时间,“t”表示特定的时间点。垂直条“|”是概率符号,表示“给定”。因此,用文字来说,风险率是事件“T”在时间“t”发生的概率,“给定”它在时间“t”之前没有发生。然而,当时间被视为连续时(就像在生存分析中几乎总是这样),事件就变得更复杂一些。因为时间被视为连续的,事件可以在任何给定的瞬间发生。在任何定义的时间窗口内都有无限可能的“瞬间”。由于微积分的性质,这意味着事件在任何一个特定瞬间(T=t)发生的概率实际上是零。不要太担心这一点是否立刻有意义,只需知道在时间被视为连续变量时(就像在Cox比例风险回归中那样),计算风险所需的数学要复杂得多。
Cox 回归模型比例风险
Cox 比例风险回归的目标是利用观察到的时间-事件数据,建立预测变量值与风险率(风险函数)之间的数学关系。根据这些信息,可以确定生存函数,从而为每个个体提供作为时间函数的估计生存情况。然而,以下是Cox比例风险回归试图定义的一般模型:
其中:
h(t) 是风险率(作为时间的函数) h0(t) 是基线风险率(定义如下) xi 是每个预测变量i的值——请注意,在Cox回归中,每个观察到的关注事件的流逝时间不被视为预测变量。相反,预测变量代表任何其他可能对这个流逝(生存)时间有影响的测量变量。 βi 是每个预测变量i的系数
[size=14.6667px]
Cox 比例风险回归最重要的一个方面是对基线风险(baseline hazard )的假设,如上述方程中的h0(t)所示。这本身是一个时间的函数,表示某种曲线(类似于上一节中所示的曲线),它将关注事件的频率与时间联系起来。重要的是,基线风险的具体形状是不重要的(它可能先高后低,随时间变化;也可能先低后高,随时间变化;或者可能包含许多峰值和谷值)。实际上,进行Cox比例风险回归并不需要知道基线风险率的形状或特性。这种假设使得基线风险可以采用任何分布,这就是Cox比例风险回归成为半参数分析的原因。
了解基线风险的关键在于,它代表了当所有预测变量的值都设为零(或者对于分类变量,它们的参数水平)时的风险率。这可以通过上述方程来展示,将xi设为零:
所以基线风险(baseline hazard)是当所有预测变量的值都设为零时的风险函数。并且,人群中任何个体的风险可以通过将这个基线风险乘以由他们各自的预测变量值所决定的某个量来确定(风险率方程中由“exp(Σ(xi*βi))”给出的部分)。换句话说,这意味着任何个体的风险率与一个共同的基线风险率成比例。
另一个非常有趣的结果是,这种对基线风险函数的假设在我们考虑具有不同预测变量值的两个个体的风险时会产生什么。为了简单起见,让我们考虑一个具有单一预测变量(xi)的模型,其中一个个体对这个变量的值为“a”,而第二个个体对这个变量的值为“b”。这两个个体的风险函数将是:
这些风险函数的比值是:
分子和分母中的基线风险(baseline hazard)可以消去,留下一个与时间相关的常数比例(我们假设预测变量的值不随使劲变化)。换句话说,人群中任意两个人的风险比在所有时间点都是恒定的。换一种说法,这意味着人群中两个人的风险总是相互成比例的。这种比例性的概念就是这种分析被称为Cox比例风险回归的原因。下面的图表给出了这些比例关系的一个图形示例:黑色曲线是理论基线风险率,而蓝色和红色曲线代表对应于单个预测变量的两个不同值的风险率(蓝色曲线对应某个任意值“a”,红色曲线对应该值的两倍“2a”)。
可以看出,每条曲线之间的垂直距离在所有时间点上都不是恒定的,但任意两条曲线在任意时间点的风险比将保持不变。因此,随着基线风险值的增加,曲线之间的距离会增加,而每条曲线都保持相似的形状,并且——重要的是——这些曲线永远不会交叉。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝