楼主: 可人4
558 62

[量化金融] 使用状态空间框架进行死亡率建模的统一方法: [推广有奖]

41
可人4 在职认证  发表于 2022-6-15 15:27:33 |只看作者 |坛友微信交流群
LCSV-H模型我们还使用合成数据进行了大量模拟研究,以证实我们估算方法的有效性,但出于空间考虑,此处省略了这些方法。可根据要求提供。包括LC-H模型和LCSV模型的两个特征,因此可以充分考虑长期死亡率动态的可变性。人类死亡率数据库提供了从1835年到2011年丹麦人口的一系列特别长的死亡率数据,并补充了详细的数据分析文件(Andreev(2002))。提供长时间序列对于我们分析随机波动性很重要。在过去几十年中,发达国家的死亡率趋势总体上呈现出较为平稳的格局。将涉及战争、流行病或其他生命关键事件的时期包括在内,是见证死亡时间序列显著波动的关键因素。接下来,我们根据表2的模型和本文研究的贝叶斯方法分析了丹麦的人口死亡率。然后,我们根据死亡率和寿命预测特性检验模型。我们还对死亡率预测中的线性趋势假设和跳跃效应偏差进行了评论。模型名称DynamicLee Carter(LC)模型LC(3)-(4)具有异方差的LC模型LC-H(22)LC随机波动率(SV)模型LCSV(23)具有异方差的LC-SV-H模型LC-H和LCSV的组合表2:我们实证研究中考虑的状态空间死亡率模型总结。6.1数据描述dat a集合包括丹麦21个年龄组(0、1-4、5-9、…、95-99)的男性人口死亡率,从18年到35年,其中2010年为年末。图1显示了成年雄性种群对数死亡大鼠的一些时间序列。

使用道具

42
大多数88 在职认证  发表于 2022-6-15 15:27:36 |只看作者 |坛友微信交流群
很明显,对于不同的年龄组,多维时间序列表现出不同的波动性,这证明了将异方差引入观测方程的合理性,如第3.1节所述。我们还观察到,主要是在1950年之前,某些年龄组的死亡率波动性存在显著差异。这种波动性在时间维度上的变化表明,随机波动性可能存在于潜在的时间周期效应中。6.2估计结果在我们的实证研究中,我们侧重于贝叶斯推理和预测。我们假设先验模糊,因此所有推断主要基于数据,先验的影响不是实质性的。以LCSV模型为例,我们假设κ~ N(0,10),αx~ N(0,10),βx~ N(0,10),θ~ N(0,10),σε~ IG(2.001,0.001),σγ~ IG(2.001,0.001),λ~ N(0,10),λ~ N(0,10)和γ~ N(0,10),其中x∈ {x,…,xp}。马尔可夫链的迭代次数为15000次,老化次数为5000次。我们将αx=TPTt=1yx,βx=0.2作为识别约束。丹麦死亡率数据(1835-2010)的静态参数(α和β除外)估计值如表3所示。其余估计参数和状态如图2所示。

使用道具

43
能者818 在职认证  发表于 2022-6-15 15:27:41 |只看作者 |坛友微信交流群
这里,我们仅显示了LCSV-H模型的曲线图,因为gureshttp://www.mortality.org/(2015年9月访问)1850 1900 1950 2000-10-8.-6.-4.-2 0年死亡率组0年龄组5-9age组15-191850 1900 1950 2000-7.-6.-5.-4年死亡率Sage group 25-29年龄组35-39年龄组45-491850 1900 1950 2000-5-4-3-2.0年死亡率组55-59年龄组65-69年龄组75-791850 1900 1950 2000-2-1.5-1-0.5 0.0年死亡率组85-89年龄组90-94年龄组95-99图1:1835-2010年丹麦男性人口的对数死亡率系列。从LC、LC-H和LCSV模型获得的数据在视觉上与LCSV Hmodel的情况相似。从图2可以明显看出,有些时期,即1850-1870、1910-20、1930-1950,与其他时期相比,时间效应κ表现出更高的波动性。我们还观察到,κ在1990年后显著下降,在1950-2010年的近期相对平稳。对数波动率过程γ1835:2010(图2)的过滤量化了时间效应的波动率水平(eγt),并进一步证明了重要性的随机波动性。为了更清楚地看到波动率变化的现象,我们绘制了第一个差异\'κt=\'κt- \'-κt-在图e 2中,对于LCSV-H模型,其中“κt表示κt的后验平均值,t=1836,2010年。它明显显示了潜在过程κt中波动水平的变化。估计对数波动率γ1835:2010的模式和第一个差异κtclayerly指出,对于时间效应,假设波动率为常数(σω)是不合适的。状态空间建模方法能够揭示隐藏在死亡时间序列中的特定异方差结构。

使用道具

44
何人来此 在职认证  发表于 2022-6-15 15:27:45 |只看作者 |坛友微信交流群
图2显示,对于非常年轻和非常年老的年龄组,死亡率特别高。异方差结构对预测的影响将在第6.4节中讨论。为了研究随机波动率模型的预测性能,我们还基于1835-1990年和1950-1990年的校准期对模型进行了估计。图3和图4显示了这些时期LCSV-H模型的估计参数和状态。LC LC-H LCSV LCSV-Hθ-0.11(-0.17,-0.06)-0.11(-0.17,-0.06)-0.11(-0.15,-0.07)-0.0 9(-0.14,-0.04)σε0.023(0.0 22,0.024),类似于图2 0.023(0.022,0.024)图2σω0.13(0.09,0.18)0.15(0.10,0.21)N.A.N.A.λN.A.N.A.0.989(0.962,0.999)0.984(0.9 49,0.999)λN.A.N.A.-0.025(-0.11,0.042)-0.03(-0.15,0.05)σγN.A.N.A.0.15(0.03,0.48)0.25(0.06,0.67)γN.A.N.A。-2.09(-4.52,0.23)-2.11(-5.04,0.47)表3:丹麦男性死亡率数据(1835-2010)的静态参数估计值(α和β除外)。(,)中的范围表示95%可信区间。(N.A.:不适用)6.3模型评估为了将模型的fit与da进行比较,我们采用偏差信息准则(DIC)作为模型复杂性和fit的贝叶斯度量(Spiegelhalter et al.(2002))。通常使用条件DIC评估和比较模型与潜在变量(Berg et al.(20 04),Celeux et al.(2006))。具体而言,我们使用所谓的条件对数似然,计算为ln f(y1:T |ψ,κ1:T)=xpXx=xTXt=1-ln 2π- lnσε,x-yx,t- (αx+βxκt)σε,x!. (83)注意,可能性取决于包括bot h静态参数和潜在过程κ在内的参数。

使用道具

45
能者818 在职认证  发表于 2022-6-15 15:27:53 |只看作者 |坛友微信交流群
使用条件对数似然函数,偏差定义为asD(ψ)=-2 ln f(y1:T |ψ)+2 ln h(y1:T),(84),其中ψ=(ψ,κ1:T),我们假设h(y1:T)=1,因为在模型中,我们认为它扮演一个常数的角色,这对于竞争模型是相同的。有效维度pD为aspD=(R)D(ψ)- 其中,D(ψ)和ψ分别表示D(ψ)的平均值和ψ的后验分布的平均值。条件DIC由DIC给出:=\'D(ψ)+pD=2\'D(ψ)- D(°ψ),(86),可使用MCMC样品直接评估。校准周期:1835-2010 1835-1990 1950-1990 LC-3218.6-3087.5-156 7.3LC-H-4469.1-4269.7-179 3.6LCV-3250.8-3109.7-155 9.7LCSV-H-4518.3-4326.8-179 4.1表4:具有不同校准周期的车型的DIC。5 10 15 20-7.-6.-5.-4.-3.-2.-1α年龄组平均95%CI5 10 15 200.00 0.10 0.20β年龄组平均95%CI5 10 15 200.00 0.05 0.10 0.15 0.20σε2年龄组平均95%CI1850 1900 1950 2000-10-5 0 5 10千年平均95%CI1850 1900 1950 2000-6.-4.-2 0γ年平均95%CI1850 1900 1950 2000-2.-1 0 1 2κTyear图2(上面板)α、β和σx的估计:x,ε;(下面板)时间效应κ1834:2010、对数波动率γ1835:2010和第一个差异κt,用于丹麦男性死亡率数据(1835-2010),使用THLCSV-H模型。具有不同校准周期的模型的DIC值f如表4所示。异方差结构的加入显著改进了LC和LCSV模型。在较长的校准周期内,LCSV模型的性能优于LC模型。这表明,LCSV模型的较好拟合度足以弥补其复杂性的增加。

使用道具

46
大多数88 在职认证  发表于 2022-6-15 15:27:57 |只看作者 |坛友微信交流群
对于短期校准期(1950-1990年),LC模型的表现优于预期的LCSV模型,因为在短期内死亡率的演变是平稳的,并且在LC模型中引入随机波动性没有明显的优势。6.4预测在本节中,我们研究了表2中总结的死亡率模型的预测特性,其中包括异方差和随机波动结构。我们的分析基于(对数)死亡大鼠和预期寿命的预测分布。贝叶斯状态空间框架允许我们使用MCMC样本获得预测分布,如下所示。DIC值越低,模型在效率和复杂性方面就越好。5 10 15 20-6.-5.-4.-3.-2.-1α年龄组平均95%CI5 10 15 200.00 0.10 0.20 0.30β年龄组平均95%CI5 10 15 200.00 0.05 0.10 0.15σε2年龄组平均95%CI1850 1900 1950-5 0 5千年平均95%CI1850 1900 1950-10-8.-6.-4.-2 0 2γ年平均95%CI1850 1900 1950-2.-1 0 1 2κTYEAR图3(上面板)α、β和σx的估计:x,ε;(下面板)时间效应κ1834:1990、对数波动率γ1835:1990和第一个差异κt,用于丹麦男性死亡率数据(1835-1990),使用THLCSV-H模型。6.4.1死亡率对于LC(LC-H)模型,给定y1:T的yT+k的k步预测分布由π(yT+k | y1:T)=Zπ(yT+k |κT+k,ψ)π(κT+k |κT+k)给出-1, ψ) . . . π(κT,ψ| y1:T)dψdκT:T+k,(87),其中ψ是LC(LC-H)模型的参数向量。(87)表明我们可以通过抽样获得预测分布,对于k≥ 1,如下κ(l)T+k~ Nκ(l)T+k-1+ θ(l),σω(l), (88a)y(l)T+k~ Nα(l)+ β(l)κ(l)T+k,∑(l), (88b)其中l = 1.L和L是老化后MCMC迭代的次数。这里,∑是一个对角线矩阵,其中σε,xon是LC-H模型的对角线,σε是LC模型的对角线。

使用道具

47
nandehutu2022 在职认证  发表于 2022-6-15 15:28:06 |只看作者 |坛友微信交流群
此过程重新生成预测分布的估计值。类似地,LCSV(LCSV-H)模型的预测分布为π(yT+k | y1:T)=Zπ(yT+k |κT+k,ψ)π(κT+k |κT+k-1,γT+k,ψ)。π(γT+1 |γT,ψ)π(κT,γT,ψ| y1:T)dψdκT:T+kdγT:T+k.(89)5 10 15 20-8.-6.-4.-2α年龄组平均95%CI5 10 15 200.00 0.05 0.10 0.15 0.20β年龄组平均95%CI5 10 15 200.02 0.04 0.06 0.08σε2年龄组平均95%CI1950 1960 1970 1980 1990-4.-2 0 2 4千年平均95%CI1950 1960 1970 1980 1990-7.-6.-5.-4.-3.-2.-1γ年平均95%CI1950 1960 1970 1980 1990-2.-1 0 1 2κTYEAR图4(上面板)α、β和σx的估计:x,ε;(下面板)时间效应κ1949:1990,对数波动率γ1950:1990和第一次差异κt,丹麦男性死亡率数据(1950-1990),使用THLCSV-H模型。对于k≥ 1、预测分布可通过递归采样γ获得(l)T+k~ Nλ(l)γ(l)T+k-1+ λ(l),σγ(l), (90a)κ(l)T+k~ Nκ(l)T+k-1+ θ(l), exp{γ(l)T+k}, (90b)年(l)T+k~ Nα(l)+ β(l)κ(l)T+k,∑(l), (90c)其中l = 1.五十、 ∑是一个对角线矩阵,其中σε,xon是LCSV-H模型的对角线,σε是LCSV模型的对角线。图5显示了以LC模型为基准,基于LC-H、LCSV和LCSV Hmodel的预测对数死亡率。我们将年龄组5-9、35-39、6 5-69和95-99显示为年轻、成年、老年和高龄的代表。模型使用1835-2010年期间的数据进行估计,并预测30年。LC-H模型的异方差结构使年轻和高龄组的预测区间大大增大,而35-39岁组的预测区间比LC模型的预测区间窄。另一方面,与LC模型相比,LCSV模型产生了更宽的预测区间,但高龄组除外。

使用道具

48
何人来此 在职认证  发表于 2022-6-15 15:28:14 |只看作者 |坛友微信交流群
观察到的更宽预测区间是由于波动率水平在最后的估计期内不断增加,并且大于LC模型中估计的nσω。此外,随着老年人的估计βxis接近于零(图2),随着年龄的增长,预测κ对死亡率预测的影响显著降低。LCSV-H模型显示出与LC-H和LCSV模型相似的特征。值得注意的是,不同模型得出的预测平均值非常相似,它们的差异主要在于预测间隔。为了进一步说明LCSV模型的预测特性,我们估计了1835-1990年期间的模型,并在图6中绘制了20年样本外预测的原木死亡率。结果表明,LCSV模型预测的预测区间往往比LC模型小,因为在这种情况下,LC模型中估计的σω大于LCSV模型最后一个估计期的波动水平。请注意,与基准L C模型相比,LC-H模型产生的预测分布是有偏差的,因为上一个估计期(即1990年)的数据对于LC和LC-H模型是不同的。这一特性被称为跳跃误差(Lee和Miller(2001))。可以通过强制预测死亡率从实际死亡率开始,而不是从固定死亡率开始,来消除这种跳跃效应偏差(Bell(1997)和Shang等人(2011))。然而,在本文中,我们不执行此过程。图7显示了对数死亡率的预测分布,其中我们假设1950年至1990年的校准期较短。对于所有模型,除0、1-4和5-9岁年龄组外,所有年龄组的估计βx都非常接近于零。

使用道具

49
何人来此 在职认证  发表于 2022-6-15 15:28:17 |只看作者 |坛友微信交流群
事实上,这是可以预期的,因为在1950-1990年期间,除了前几个年龄组之外,观察到的死亡率数据没有明显的下降趋势。因此,LC模型和LCSV模型产生的预测分布之间只有很小的差异,但年轻组除外。请注意,图7所示的一些中年男性死亡率数据有明显的下降趋势。这会导致样本外数据超出95%可信区间的下限,其对预期寿命预测的影响将在第6.4.2节和第6.4.3节中讨论。通过比较图6和图7所示的样本数据fr 1835-1990和fro m1950-1990的预测性能,我们揭示了忽略可能显著影响人口死亡率的重要历史事件对准确模拟人口动态趋势和波动结构的能力的影响。特别是,我们注意到,当从样本中排除重要历史事件时,预测性能可能会显著下降,因为使用1835-1990年数据的预测明显优于仅使用19501990年较短校准数据a的预测。6.4.2使用预测对数死亡率y样本的预期寿命(l)x、 t=ln^m(l)x、 t,其中l = 1.L和L是MCMC样本的数量,我们可以通过构建简化寿命表来获得不同时期的所谓预期寿命,因为我们使用年龄组数据,如下所示(Koissi et al.(2006),Yusuf et al.(2014))。我们考虑ge group x∈ {0,1-4,5-9,…,95-99}和▄x被定义为ge组x的初始年龄,即▄x∈ {0, 1, 5, . . . , 90, 95}.

使用道具

50
能者818 在职认证  发表于 2022-6-15 15:28:20 |只看作者 |坛友微信交流群
定义n▄x为年龄组x的区间长度(对应于▄x),因此n=1,n=4,n=5,n=5。然后,我们计算(粗略的)死亡概率,即t年x岁的人将在下一个nxyears asnx^q年死亡(l)x,t=nx^m(l)x、 t1+nx(1- a(¢x,n¢x))^m(l)x、 t,(91)死亡概率是“粗略的”,因为粗略的死亡率用于计算。有关粗略和真实死亡概率的分析,请参见Dowd等人(2010)。式中,a(~x,n≈x)是在该时间间隔内出生的人所生活的nx耳朵的平均分数。使用死亡人数在区间内均匀分布的假设,我们为每x设置一个(x,nx)=0.5(l)~x+n~x,t由l决定(l)x+n  x,t=l(l)x,t1.-nxq(l)x,t其中l(l)0,假设为100,00 0。然后我们可以计算死亡人数nxd(l)x,t=l(l)x,t- l(l)x+n▄x,和人年寿命DN▄xL(l)x,t=n  xl(l)~x+nx,t+a(~x,nx)×nxd(l)x,t. l的未来总寿命(l)~x,T达到~x的人是T(l)x,t=π≥xn  xL(l)i、 t,其中i∈ {0, 1, 5, . . . , 90, 95}. 最后,从中获得了x岁时的周期寿命预测样本(l)x,t=t(l)x,吨/升(l)x,t(92)和分布在不同的预测年t=t+k,其中k≥ 备注6.1(周期和队列预期寿命)周期预期寿命假设未来死亡率没有趋势(根据固定年份t的特定年龄死亡率进行评估),而队列预期寿命是队列寿命后的死亡率总和,因此它考虑了死亡率趋势。例如,为了评估t年65岁时的预期寿命,需要{q65,t,q70,t,…,q95,t},而对于队列预期寿命,则使用{q65,t,q70,t+5,…,q95,t+30}。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-7-7 08:15