在这里回答您所有的生存分析问题!
什么是生存分析?
生存分析的用途是什么?
什么是生存曲线?
什么是风险函数?
如何选择生存分析的模型?
什么是Kaplan-Meier模型?
什么时候Kaplan-Meier模型适用?
如何进行Kaplan-Meier分析?
什么是Cox比例风险模型?
Cox回归模型的假设是什么?
Cox回归模型的用途是什么?
如何拟合Cox比例风险模型?
如何解释Cox比例风险?
Cox比例风险模型对于Logistic回归的优势
什么是风险函数?
危险函数描述了给定个体存活到该时间的瞬时死亡率(或失败率)。它们很少单独绘制或在生存分析中直接估计。相反,它们是在几个重要场合的幕后使用的。其中最常见的是比较治疗组和对照组之间的危害比率。此外,风险函数构成了非常流行的Cox比例风险模型的计算和假设的基础,但即使在这种情况下,实际的风险函数也不会非常精确。
直观地说,危险函数让您了解事件在当前时间点对个人发生的风险。在我们的演示示例中,我们每年只记录数据,因此我们的数据是离散的。这使得解释更具挑战性。我们得到的不是瞬时死亡率,而是接近(但不完全是)年死亡率,我们称之为“hazard”。
在我们的示例中,请注意饮食2组的风险函数在三个位置(4年、8年和10年)出现峰值。这反映了一个事实,即在生存曲线上,4年后死亡的狗比4年后存活的狗多。很明显,这是一个非常危险的年份,估计的1.3的风险函数值反映了这一点。类似的情况也发生在8年和10年。尽管当时存活的狗没有那么多,但在第8年和第10年死亡的狗的比例相对较大。
离散情况下,时刻h(t)的风险为:
如何选择生存分析的模型?
两种最常见的生存分析技术是Kaplan-Meier模型和Cox比例风险模型。
这两种模型都要求您的数据是来自某个“感兴趣的总体”的独立观察样本。在我们的例子中,这意味着驯化的狗是随机抽样的,并且与研究中的其他狗没有混淆效应和关系(例如来自同一窝,饲养员,犬舍等)。
Kaplan-Meier模型是直观的和非参数的,因此需要很少的假设。然而,除了治疗变量(控制,治疗1,治疗2,…),它不能轻易地将其他变量和预测因子合并到模型中。
Cox比例风险模型很容易包含预测变量,但它更深奥。这个模型已经存在了几十年,经过验证,并且与其他替代方案相比仍然表现良好。
什么是Kaplan-Meier模型?
Kaplan-Meier模型是执行生存分析的最直观的模型,它带有一些附加的统计严谨性的附加功能。
我们以两种不同饮食的家养狗为例,记录了研究中每只狗的饮食和死亡年份。如果我们想了解存活率和概率,最直接的方法就是计算每年每种饮食中有多少只狗死亡。我们也可以很容易地汇总数据来计算每个时间点仍然活着的狗的数量。
简而言之,这就是Kaplan-Meier模型的基础。它被称为非参数模型,因为它没有关于数据的分布假设。这只是一种制作和讨论结果的奇特方式。
如果这听起来太简单,您是对的。这种视角过分简化了Kaplan-Meier,但并没有简化太多。例如,如果研究中的一些观察结果在研究结束前没有经历感兴趣的事件,则需要在计算中适当地表示这些值。
此外,统计学家已经制定了一个数学理论,证明Kaplan-Meier估计是一个合理的选择。尽管在实践中并不是那么重要(除了给我们这样的统计学家提供工作),但这为该模型提供了可信度。例如,生存曲线的Kaplan-Meier估计量是渐近无偏的,这意味着当样本量趋于无穷大时,估计量收敛于真实值。
什么时候Kaplan-Meier模型适用?
Kaplan-Meier模型适用于没有协变量或其他预测变量的简单生存分析。一个常见的例子是研究治疗组和对照组。在本文的模拟数据集中,我们记录了狗在两种不同饮食下的存活率,在这里也是适用的。
然而,我们有关于狗的品种和它们的活动水平的额外(模拟)数据。这些可能是影响狗的生存的有趣而又重要的混杂因素。我们无法将它们包含在Kaplan-Meier分析中,但我们可以使用下面的Cox比例风险模型。
如何进行Kaplan-Meier分析?
Kaplan-Meier分析可能非常简单。所需要的只是观察单位或受试者在研究中待了多长时间的信息,它在哪个组(例如,治疗组,对照组等),以及事件是否发生或被删除(事件在研究结束前没有发生)。
Kaplan-Meier曲线是对生存曲线的估计,它是在每个时间点未经历感兴趣事件的观测比例的图形表示。
什么是Cox比例风险模型?
生存分析的行业标准是Cox比例风险模型(也称为Cox回归模型)。直到今天,当一个新的生存模型被提出时,研究人员会将他们的模型与这个模型进行比较。
它是一个完善的模型,这意味着即使违反了一些模型假设,它也能很好地工作。这是一件好事,因为这些假设很难从经验上验证,更不用说理解了。
与Kaplan-Meier模型采用的生存曲线建模不同,Cox模型估计的是风险函数。一般来说,风险函数比生存曲线更稳定,因此更容易建模。它们描述了危险,即考虑到一个人存活到那个时间的瞬间死亡率(或失败率)。
什么是Cox回归模型?
它只是Cox比例风险模型的一个更模糊的名字。
Cox回归模型的假设是什么?
Cox比例风险模型的一个重要假设是,风险函数是成比例的。David Cox注意到,通过对风险模型的形式施加“简单”约束,可以避免许多困难的数学和不稳定的优化。
这个约束(风险函数是成比例的)也提供了一种向模型添加额外变量(协变量)的简单方法。通过不同饮食的狗的模拟例子,我们现在可以包括品种(大比利牛斯犬,拉布拉多,那不勒斯獒)和活动水平(低,中,高)的附加信息。
Cox回归模型的用途是什么?
由于一个巧妙的约束和预测变量可以轻松地添加到模型中,Cox比例风险模型可以确定风险并对具有多个预测变量(协变量)的数据进行预测。例如,通过我们的模拟数据,我们可以确定特定年龄、品种和活动水平的估计危害或存活率,例如在研究中处于中等活动水平的大比利牛斯犬已经生存三年了。
如何拟合Cox比例风险模型?
为了拟合Cox比例风险模型,您需要指定数据,包括经过的时间、结果(观察单位是否死亡或被审查)和任何其他变量(协变量)。在我们的模拟示例数据中,我们正在研究两种不同饮食下狗的存活率,我们将品种和活动作为附加变量。
如何编写Cox比例风险模型?
在数学上,Cox模型的主要假设是风险函数h(t)可以表示为:
其中i=1pxi*i是p个预测(协变量)变量乘以回归系数的线性组合(和)。系数和基线危险函数h0(t)使用数据进行估计。
风险函数成比例的另一种说法是,预测变量对风险函数的影响是相乘的。这是一个很难评估的主要假设。
除非我们包括相互作用的条件(如品种的活动),否则在我们的例子中,假设活动水平对危害的影响是相同的,无论狗在研究中呆了多久,狗是什么品种,或者它的饮食是什么。
相互作用项可以包括在内,但极大地复杂化了解释,并引入多重共线性,这使得估计不稳定。与许多统计模型一样,乔治·博克斯(George Box)的妙语“所有模型都是错误的,但有些是有用的”适用于此。
基线风险函数h0(t)是David Cox风险函数公式的关键,因为当取两种不同风险的比率时,该值被消去了(比如在我们的例子中,饮食1组 vs饮食2组)。
如何解释Cox比例风险?
尽管存在细微差别,但报告Cox比例风险模型的结果有两种主要选择:数字或图形。
数值结果
数值结果中信息量最大的部分是参数估计(和风险比)。如果您熟悉线性回归和逻辑回归,那么对数值结果的解释只需要稍微调整一下。下面的估计提供了理解每个预测变量如何影响危险函数所需的基本信息。
在数学上,这些参数估计值用于计算协变量在不同值(或水平)下的危害函数,使用公式:
Cox模型使用这些数据来找到风险函数中回归(β)系数的最大似然估计量。模型中的每个变量(在我们的例子中是Diet, Breed和Activity)都有自己的回归系数和估计值。模型中的分类变量使用参考级编码。
有必要对Cox回归模型进行基线参考,因为所有的解释都是基于计算与基线成比例的风险函数h0(t)。
对于我们的例子,主要的问题是:这两种不同的饮食对狗的生存有显著的影响吗?从参数估计和风险比中,我们可以看到,它们确实存在,而且实际上,存在相当大的差异。特别是(无论品种或活动水平),饮食2组的狗比饮食1组的狗的危险性高4.322倍,95%置信区间为(2.720至6.953)。由于95%CI不包括1,我们也可以说该系数具有统计学意义(p<0.05)。
我们上面报告的值是风险比,在本例中为e[ˆβ1]。
什么是风险比?
风险比用于解释Cox比例风险模型的结果,是一个变量对基线风险函数的乘法效应。对于连续的预测变量,这是预测器中1个单位变化的乘法效应(例如,如果体重是一个预测器并且以千克为单位测量,则它将是每千克的乘法效应)。对于分类变量,它是由该水平的预测因子(例如,饮食2组)产生的乘法效应。
图形结果
解释Cox回归模型的主要图表是预测变量特定值的累积生存函数。
我们的模拟数据中有许多有趣的图形。例如,下面的两个图显示了饮食1组和饮食2组存活率之间的巨大差异。在这里,我们将活动水平固定在中等水平,并通过颜色显示品种之间的差异。注意到饮食2组的急剧下降,这表明存活率要低得多。因为模型中没有任何相互作用项,这些生存曲线不会交叉。我们的数据被模拟得很好,并且不需要交互条件。请注意,这些每个品种的存活率完全是虚构的!
第二个图形例子显示了单一品种(大比利牛斯)的饮食和活动水平的影响。这清楚地表明饮食1组的存活率要高得多。它还表明,随着活动水平的增加,存活率也会增加。饮食2组比饮食1组糟糕得多,即使饮食1组的低活动量也比饮食2组的高活动量存活率高。
Cox比例风险模型对于Logistic回归的优势
Cox比例风险模型和logistic回归模型被用于不同的目的;它们实际上没有可比性。Cox比例风险模型是一种生存分析工具,用于测量事件发生前的时间。它用于比较不同实验或观察变量的存活率(或失败率)。在我们的例子中,我们观察家养狗在两种不同饮食下的生存模拟数据。我们还记录了品种和活动水平的信息。
逻辑回归是一种预测二元反应的工具,比如成功/失败、出席/缺席、是/否。逻辑回归也使用预测变量,但它是为了确定事件是否发生在特定的观察单位。在其标准形式中,预测中没有时间因素。例如,您可以使用逻辑回归根据一些预测变量(以前的考试成绩、年龄、头围等)来预测学生是否通过某门课。


雷达卡






京公网安备 11010802022788号







