第三十章 久期分析
一、久期分析的基本概念在实证研究中,有时被解释变量为某种活动持续的时间,如病人存活的时间、灯泡报废的时间、失业持续的时间、婚姻持续的时间等。这类数据称为“久期数据”(duration data),相应的分析方法称为“久期分析”(duration analysis)。由于考察个体从某一状态转换到另一状态所花费的时间,故也称为“转换分析”(transition analysis)或“事件历史分析”(event history analysis)。在生物统计领域,久期分析也被称为“生存分析”(survival analysis);在运筹学领域,被称为“报废分析”(failure time analysis);在人口学领域,被称为“生命表分析”(life table analysis);在保险领域,被称为“风险分析”(hazard analysis)。
二、风险函数- 概率密度函数:记个体在某种状态中持续的时间(spell)或寿命为T ≥ 0,其一个特定取值记为t0。假设T为连续型随机变量,其概率密度函数为f(t)。
- 累积分布函数:也称为失效函数(failure function),为F(t)。
- 生存函数:考虑“病人”存活期超过t的概率,称为“生存函数”(survivor function),表示为S(t)≡P(T﹥t)=1-F(t),t≥0。由于累积分布函数F(t)单调递增,故生存函数S(t)单调递减。
- 风险函数:定义“风险率”(hazard rate)或“风险函数”(hazard function)为病人在时刻t的瞬间死亡率,表示为λ(t)。
- 累积风险函数:为度量截止时刻t的累积总风险,定义“累积风险函数”(cumulative hazard或integrated hazard)为:∫λ(u)du=-lnS(t)。累积风险函数的好处在于,它比风险函数可以更准确地估计。如果知道累积风险函数,很容易计算生存函数,表示为S(t)=exp[-∫λ(t)]。
久期数据常存在“右归并”(right censoring)问题,产生原因包括:
- 当研究结束时,有些个体可能尚未发生目标事件(如病人尚未死亡、失业者还未找到工作)。
- 个体中途退出研究。
- 研究者与个体失去联系,无法继续跟踪调查。
在久期样本中,每一个体开始活动(比如,开始生病或失业)的日历时间(calendar time)可以不同。通常将“风险开始”(onset of risk)的时间标准化为0时刻。记个体i的真实寿命为Ti(可能不可观测),而归并时间为Ci。实际观测到的Ti或为个体寿命Ti,或为归并时间Ci,取决于二者哪个更小,即Ti=min(Ti,Ci)。以虚拟变量di来记录个体i的观测记录是否完整:di=1(Ti<Ci),表示有完整记录,无归并;如果di=0,则存在右归并。
此外,久期数据还可能存在左归并和区间归并问题。
四、描述性分析生存函数S(t)为个体存活时间超过时刻t的概率。如不存在归并,可定义S(t)的估计量为样本中存活时间超过时刻t的个体数目r占样本容量n的比例,即r/n。如存在归并,一般使用Kaplan-Meier估计量(Kaplan and Meier,1958),它在独立归并的情况下依然是S(t)的一致估计量。
五、久期分析的应用久期分析在多个领域都有广泛的应用,如医学、经济学、社会学等。通过久期分析,可以深入了解个体或事件从某一状态转换到另一状态所需的时间及其影响因素,为政策制定和决策提供科学依据。
六、Stata在久期分析中的应用结合欧美流行的Stata计量软件,可以介绍相应的Stata命令与实例,以便读者更好地掌握久期分析的方法和技巧。
综上所述,该章节全面介绍了久期分析的基本概念、风险函数、久期数据的归并问题、描述性分析以及Stata在久期分析中的应用,为读者提供了深入的理论知识和实践指导。


雷达卡




京公网安备 11010802022788号







