人大经济论坛 › 论坛 › 经济学人二区 › 外文文献专区 › 使用状态空间框架进行死亡率建模的统一方法：

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: 大多数88

659 62

[量化金融] 使用状态空间框架进行死亡率建模的统一方法： [推广有奖]

11楼

nandehutu2022

发表于 2022-6-28 04:03:39 |只看作者 |坛友微信交流群

有关离散时间和连续时间随机死亡率建模背景的详细讨论，请参见Cairns et al.（2008）。2.2随机死亡率模型在死亡率模型中，最广泛考虑的随机因素模型示例之一是Lee和Carter（1992）首次提出的方法，他们提出了一个针对特定年龄粗死亡率的随机死亡率模型^mx，t，其中x=x，xpand t=1，t分别显示年龄（或年龄组）和年份（时间）。在该模型下，对数粗死亡率的动力学yx，t=ln^mx，t由yx，t=αx+βxκt+εx，t，εx，tiid给出~ N（0，σε），（3），其中N（0，σε）表示均值和方差σε为零的高斯分布。向量α=αx:xp：=[αx，…，αxp]表示对数死亡率的年龄比例，β=βx:xp或者，可以将Lee-Carter模型视为对数中心死亡率ln mx的模型，t=αx+βxκt。当考虑死亡计数的泊松回归设置（在第2.3.2节中讨论）时，粗死亡率和中心死亡率的区别尤为重要，其中正模拟中心脱氮酸的动力学（Cairns et al.（2009）和Dowd et al.（2010））。测量不同年龄组死亡率对时间序列κt变化的敏感性。

使用道具举报

12楼

可人4

发表于 2022-6-28 04:03:42 |只看作者 |坛友微信交流群

出于预测目的，假设周期效应κt满足方程κt=κt-1+θ+ωt，ωtiid~ N（0，σω），（4），其中εx，tandω皮重独立。在这种情况下，显然Lee-Carter模型是不可识别的，因为（3）对于参数的某些线性变换是不变的：yt=α+βκt+εt=α+βc+βd（（κt- c） d）+εt=°α+°βОκt+εt，（5）式中▄α=α+βc，▄β=β/d和▄κt=（κt- c） d.为了在估计Lee-Carter模型时克服这种识别问题，必须引入非唯一的约束选择，以将模型限制为可识别的类别。精算师的标准做法是考虑以下两个约束条件：xpXx=xβx=1，TXt=1κt=0，（6）正如Lee和Carter（1992）所建议的那样，以解决可识别性问题。这种约束的选择相当于选择c=（1/T）PTt=1κ，d=Pxpx=xβx。因此，我们有PTt=1κT=0和Pxpx=xβx=1。这些特定形式的识别约束的原因与以下事实有关：随机因子κ的路径空间约束，κt旨在使κt值在范围t上居中∈ {1，…，T}，因此该结构设计用于捕捉年龄段效应，α范围包含血红素年龄效应，随时间平均，双线性项βxκT包含年龄段趋势（相对于ma年龄效应）。自从引入Lee-Carter模型以来，这类因素模型在两种实践中都得到了广泛的应用，Lee-Carter模型现在被美国人口普查局用作基准方法，在学术界，文献中提出了一系列随机死亡率模型扩展，见表1。

使用道具举报

13楼

可人4

发表于 2022-6-28 04:03:45 |只看作者 |坛友微信交流群

在这里，我们不认为模型动力学Lee和Carter（1992）ln（mx，t）=αx+βxκtRenshaw和Haberman（2003）ln（mx，t）=αx+Pki=1β（i）xκ（i）tRenshaw和Haberman（2006）ln（mx，t）=αx+β（1）xκt+β（2）xζt-xCurrie（2009）ln（mx，t）=αx+κt+ζt-xCairns等人（200 6）logit（qx，t）=κ（1）t+κ（2）t（x- \'x）Cairns等人（200 9）logit（qx，t）=κ（1）t+κ（2）t（x- \'\'x）+ζt-xPlat（2009）ln（mx，t）=αx+κ（1）t+κ（2）t（(R)x- x） +κ（3）t（(R)x- x） ++ζt-表1：几种流行的随机死亡率模型。Renshaw和Haberman（2003）以及Renshaw和Ha berman（2006）引入了多周期（Pki=1β（i）xκ（i）t）和队列因子（ζt）-x）分别采用Lee-Carter方法。Currie（2009）在Renshaw和Haberman（2006）中考虑了模型的简化版本。凯恩斯等人（2006年）提出模型logit（qx，t）：=ln（qx，t/（1- qx，t）而不是对数死亡率，\'x是样本范围内的平均年龄。Cairns等人（2009年）研究了一个额外的队列因素。Plat（2009）介绍了一种模型，该模型结合了先前模型的理想特性，并包含一个术语（(R)x- x） +：=最大（(R)x- x、 0）获取更好的年轻死亡率。Hunt和Villegas（2015）讨论了Lee-Carter型模型的识别约束规范，即对数死亡率在表1中建模的情况。2.3两阶段估计方法：频率主义观点文献中提出了几种Lee-Carter模型估计的“经典”方法，虽然它们通常涉及两个阶段的过程，首先将观测方程视为回归（明确忽略潜在因素结构），然后在第二阶段将时间序列模型应用于潜在因素结构。Pitaco等人（2009年）对此类方法进行了详细的概述。

使用道具举报

14楼

能者818

发表于 2022-6-28 04:03:48 |只看作者 |坛友微信交流群

这两个阶段的程序与现代国家空间建模程序不一致，现代国家空间建模程序在频率和贝叶斯模拟中正逐步走向联合参数估计和潜在状态估计，这将在后续章节中讨论。正如凯恩斯等人（201 1）的评论所反映的那样，这在第一次尝试改进校准方法时得到了反映，他们强调“拟议框架的关键要素是我们的建模和过程参数估计的单阶段方法。”Czado等人（2005年）的工作也反映了这种与一致的单阶段联合鉴定相关的观点。2.3.1基于多因素Lee-Carter SVD的两阶段校准估计随机死亡率模型最常用的方法之一是通过奇异值分解（SVD）。我们使用多周期（k因子）Lee-Carter模型（Renshaw和Haberman（2003）），识别约束条件为txt=1κ（i）t=0，xpXx=xβ（i）x=1，（7），其中i=1，k、举例说明以下方法（Koissi等人（2006））。第1a阶段-观测方程估计阶段：我们首先注意到，约束ttt=1κ（i）t=0将导致α水平的估计值，由αx=TTXy=1yx给出，t、（8）第1b阶段-观测方程估计阶段：下一阶段是通过水平估计^α对观测值{y1:t}进行去趋势化，然后对剩余观测值的所得（p×t）矩阵进行SVD，以获得分解SVD[y1:t-^α]=hXi=1ρiuivi、（9）其中表示换位和ρi，对于i∈ {1，…，h}，是降序奇点值，其中h是数据矩阵r ix的秩。

使用道具举报

15楼

mingdashike22

发表于 2022-6-28 04:03:51 |只看作者 |坛友微信交流群

这里，ui和via分别是维数为p和T的奇异值ρi对应的左奇异向量和右奇异向量。对于k阶，其中k≤ h、矩阵的近似，我们有1:T-^α=kXi=1ρiuivi+Д1:T，（10），其中Д1:T=φ=k+1ρiuiviis k秩残差。然后，我们确定|β（i）=Ui和|κ（i）=ρivi，对于i=1，k、然后执行转换κ（i）t=～κ（i）tx～β（i）x，β（i）x=～β（i）xPx～β（i）x，（11）以确保约束pxβ（i）x=1，对于i=1，k、第2阶段-潜在过程因子估计阶段：在这一阶段，可以通过为每个因子指定一个时间序列模型结构（如s ARIMAmodel）来估计最近的因子：κ（j）t=θ（j）+pXr=1κ（j）t-r+qXs=1（j）t-s+t，（12）或另一种选择是，可以使用等效向量自回归（VAR）模型结构，而不是将每个fa cto r视为时间序列规范中的独立变量。人们通常会通过Yule-Walker方程进行这一阶段的估计，参见Tsay和Tiao（1984）中的instancediscussions。

使用道具举报

16楼

何人来此

发表于 2022-6-28 04:03:54 |只看作者 |坛友微信交流群

在此类规范下，我们可以获得周期影响潜在因素预测的封闭式分布和估计器，这些分布和估计器可以被替换到观察模型中，用于预测未来预测区的年龄死亡率，并用于构建生命表。2.3.2基于回归的方法值得注意的是，SVD方法假设误差结构中存在同方差。因此，为了解释不同年龄段死亡率数据的异方差性，Brouhns et al.（2002）建议通过泊松回归来模拟死亡计数，而不是死亡率，其中Lee-Carter方法中的加法误差项被毒物随机变量取代。具体而言，死亡人数Dx，tis建模为Dx，t~ 泊松（Ex，tmx，t（Φ）），（13），其中Ex，是死亡暴露，mx，t（Φ）是中心死亡率的模型，Φ是根据所用模型的参数向量，包括时间动态因素，如asperiod和队列效应，参见示例表1。然后通过最大化对数似然函数来估计参数向量，该函数由l（Φ；D，E）=XtXx（Dx，tln（Ex，tmx，t（Φ））给出- Ex、tmx、t（Φ）- ln（Dx，t！），（14）我们在此省略Lee和Carter（1992）中提出的κ的设置过程。其中Dx，t！表示Dx，t的阶乘。然后，使用时间序列模型对时间动态因素进行建模，形成第二阶段估计程序，用于预测。请注意，由于我们有qx，t=1，因此可以在这种方法下估计CBD类型的模型-经验值{-mx，t}（Cairns等人（2009））。备注2.1在上述所有讨论的案例中，一般认为两阶段估计方法（SVD和回归）处理未观察到的因素，例如周期效应κ和队列效应ζt-xas参数。

使用道具举报

17楼

大多数88

发表于 2022-6-28 04:03:57 |只看作者 |坛友微信交流群

为了预测目的，通常在ARIMA框架下，将这些DYNA mics因子建模为时间序列。在本文中，我们认为一种更一致的方法涉及将模型规格正式嵌入状态空间模型结构中，并形成估计、联合滤波和静态参数估计，这可以在贝叶斯（基于后验）或频率（基于似然）设置中实现。我们将在本文中进行演示。2.4估计方法：贝叶斯观点从贝叶斯建模的角度来看，研究随机死亡率模型的论文很少，本区域的主要论文涉及Czado et al.（2005）、Kogure et al.（2009）和Cairns et al.（2011）。正如在这些研究中所观察到的那样，采用贝叶斯方法进行死亡率建模有许多可能的优势，尤其是在人口较少的情况下，这也可能有大量的缺失数据。需要注意的一个重要点是，迄今为止，我们所了解的大多数建模文献中的所有贝叶斯模型公式都使用了在现代统计学方法中被视为基本的基于抽样的方法来对Lee-Carter型模型进行贝叶斯估计。这里的批评可以从两个方面进行。1、第一个原因是，在这些贝叶斯公式中，潜在的动态过程状态仍然在MCMC采样程序中被视为一组静态模型参数。在许多地方都提到了这样做的问题，例如Carter和Kohn（19 94）。最近，在贝叶斯模型中开发了新的推断方法，以避免在最近的过程中必须在吉布斯步长内进行单变量共轭基函数或大都市。

使用道具举报

18楼

mingdashike22

发表于 2022-6-28 04:04:00 |只看作者 |坛友微信交流群

其原因是，众所周知，通常情况下，它在执行推理方面非常有效，并且由于有限计算预算的马尔可夫链混合性能不佳，可能会导致后验推理结果误导。Andrieu et al.（2010）和Chopin et al.（2013）等后续工作以及Peters et al.（2010a）生态学中基于种群的状态空间模型的具体案例对此类问题进行了详细讨论。2、其次，所有现有的基于MCMC抽样的贝叶斯方法在死亡率建模文献中的引用往往忽视了模型识别的可能性问题，这可能会导致贝叶斯公式中出现问题。事实上，一些方法在贝叶斯模型中实现了识别约束，并开发了MCMC采样器，试图以这样一种方式施加识别约束，即如果不适当地应用约束，产生的马尔可夫链可能与保持正确的不变平稳分布不一致。我们在另一篇论文中对此问题进行了研究（Peters et al.（2016））。需要解决这两个问题，以更新方法，使之更有效。通过增强模型公式的规格，采样方法可以直接处理此类问题。尤其是，此类模型估计的现代方法不是将最近未观测到的过程视为静态参数，而是将其视为状态空间模型，其中基于滤波的方法（卡尔曼滤波器变体，SMC）可用于潜在过程估计，并与“静态”模型参数的一致性估计相结合。

使用道具举报

19楼

可人4

发表于 2022-6-28 04:04:03 |只看作者 |坛友微信交流群

我们将详细说明这些估算程序，这些程序也与施加与Lee-Carter模型公式相关的规范识别约束相一致，这些规范识别约束的开发是为了确保马尔可夫链采样器和过滤器的开发能够保持正确不变的贝叶斯后验模型。备注2.2（似然识别问题和贝叶斯建模）我们注意到，似然中未识别的模型参数在贝叶斯分析中不会造成任何形式的问题。识别是似然函数的一个特性，而贝叶斯参考（BayesianReference）则简单地使用似然函数来映射来自先前拓扑信念的数据。然而，通常情况下，从实际角度来看，使用未识别的似然函数通常不令人满意，因为它可能导致后验中的部分识别问题或后验中的问题多模态。一般来说，如果使用属性分布，它可能会提供“近似识别”，即将参数限制视为先验密度的限制形式，那么引入有关参数的先验信息和施加识别限制之间存在功能上的等效性。3 Mor-tality模型的状态空间公式我们现在能够基于状态空间方法提出随机死亡率模型的替代表示（Harvey（1989），West和Harrison（1997））。这种方法的一个优点是，SVD或泊松回归最大似然方法下的两阶段估计和预测过程可以在一个单独的环境中进行组合。Cairns等人（2011年）承认，单阶段方法的统计一致性得到了改善。

使用道具举报

20楼

kedemingshi

发表于 2022-6-28 04:04:06 |只看作者 |坛友微信交流群

另一个关键优势来自状态空间模型估计中基于采样的技术的最新进展。这一进步允许在复杂的状态空间模型上进行统计推断。我们利用这一发展，利用现实模型，旨在捕捉长期死亡率动态。一般状态空间模型由状态方程φt=A（φt）组成-1，ut），（15）和观测方程zt=b（φt，vt），（16），其中状态φt与扰动ut形成隐/潜马尔可夫过程，观测到的时间序列数据zt仅取决于φ和扰动vt。此处a（.）和b（.）是可能的非线性函数，状态φ和观测值zt可以是多维的。很明显，表1中的模型规定了可以考虑的不同状态空间模型的观测方程。例如，对于多周期Lee-Carter模型（Renshawand Haberman（2003）），不同年龄x的观测数据为zx，t=ln（^mx，t），最新状态为周期效应φt=κ（1）t，κ（k）t. 我们还注意到，多种群（即多曲线）结构可以以多种不同的方式纳入以下状态空间模型，我们将开发的估计方法将适应这些设置。在以下小节中，我们将讨论一些不同类别的死亡率模型，这些模型在第2节中提到的方法中很难处理，但可以在状态空间框架中直接处理。3.1具有异方差的Lee-Carter模型：LC-H模型我们在这里提出了具有异方差结构的Lee-Carter模型的状态空间公式。

使用道具举报