楼主: kedemingshi
1148 46

[量化金融] 受观测延迟影响的隐藏事件数建模 [推广有奖]

41
何人来此 在职认证  发表于 2022-6-2 21:46:36
https://doi.org/10.1214/14-AOAS752.Supplementary“受观测延迟影响的隐藏事件数量建模”材料,Jonas Crevecoeur1,3,*,Katrien Antonio1,2,3,4和Roel Verbele1,3,4比利时鲁汶经济与商业学院。荷兰阿姆斯特丹大学经济与商业学院。LRisk,比利时库鲁汶鲁汶保险和金融风险分析研究中心。比利时库鲁汶鲁汶统计研究中心LStat*通讯作者。电子邮件:jonas。crevecoeur@kuleuven.beMarch2019A年7月27日观测暴露参数的最大似然估计我们建立了构成观测暴露的参数向量γ模型`(γ;χ)=τXt=1τXs=tNt,s·log(pt,s)-τXt=1NRt(τ)·log(pRt(τ))(12)=τXt=1τXs=tNt,s·logF▄U(Дt(s- t+1))- F▄U(Дt(s- t) ()-τXt=1NRt(τ)·logF▄U(Дt(τ- t+1)),式中,Дt(d)=t+d-1Xv=texp(xt,vγ)。最优参数γ不存在解析解,需要进行数值优化。我们使用Newton-Raphson算法来最大化可能性(12)。Newton Raphson算法迭代更新参数估计,如下所示:^γ(k+1)=^γ(k)- H-1(γ(k))·S(γ(k))。(13) 该公式中观测暴露参数32的最大似然估计S表示得分向量,H是(12)中对数似然的Hessian,即一阶向量和二阶偏导数矩阵。下面我们推导了当F是已知的两次连续可微分布函数时,对数似然的一阶和二阶导数的表达式。

42
能者818 在职认证  发表于 2022-6-2 21:46:39
得分向量的分量为`(γ, ξ; χ)γi=τXt=1τXs=tNt、spt、s·f▄U(Дt(s- (t+1)·^1tγi(s- t+1)- f▄U(Дt(s- t) ()·^1tγi(s- t)-τXt=1NRt(τ)pRt(τ)·f▄U(Дt(τ- t+1))·^1tγi(τ- t+1),其中f▄U(·)表示f▄U(·)和pt的密度函数,s=f▄U(νt(s- t+1))- F▄U(Дt(s- t) )pRt,s(τ)=FU(Дt(τ)- t+1))。时变算子νtwi对γ的导数为γiИt(s- t+1)=sXv=txt,v,i·αt,vwhere xt,s,iis报告日期为t的索赔的第i个参数的协变量值。Hessian H由`(γ; χ)γiγj=τXt=1τXs=tNt,spt,s·“fU(νt(s- t+1))·^1tγi(s- t+1)·^1tγj(s- t+1)- f▄U(Дt(s- t) ()·^1tγi(s- t)·^1tγj(s- t) +f▄U(Дt(s- t+1))·^1tγiγj(s- t+1)- f▄U(Дt(s- t) ()·^1tγiγj(s- t)#-τXt=1τXs=tNt、spt、s·“fU(νt(s- t+1))·^1tγi(s- t+1)·^1tγj(s- t+1)+fU(Дt(s- t) ()·^1tγi(s- t)·^1tγj(s- t)- f▄U(Дt(s- t+1))·fU(Дt(s- t) ()·^1tγi(s- t+1)·^1tγj(s- t)- f▄U(Дt(s- t+1))·fU(Дt(s- t) ()·^1tγi(s- t)·^1tγj(s- t+1)#-τXt=1NRt(τ)pRt(τ)·“fU(Дt(τ- t+1))·^1tγi(τ- t+1)·^1tγj(τ- t+1)B模拟程序33+fU(Дt(τ- t+1))·^1tγiγj(τ- t+1)#+τXt=1NRt(τ)pRt(τ)·f¢U(Дt(τ- t+1))·^1tγi(τ- t+1)·^1tγj(τ)- t+1),其中φtwith相对于γ的二阶导数为γiγjДt(s- t+1)=sXv=txt,v,i·xt,v,j·αt,v(13)中的Newton-Raphson算法对观测曝光参数γ进行建模。结合观测参数,第3.5节的模拟研究估计了对数正态时变分布中的方差参数σ。(13)中的Newton-Raphson算法可以很容易地扩展到这种情况,其中Fude的分布函数依赖于参数。B模拟程序我们概述了用于根据第3.5.1节规定的四种方案生成数据集的算法。

43
大多数88 在职认证  发表于 2022-6-2 21:46:42
该算法将事件发生模型与第2节所述的观测延迟模型相结合。我们将算法分为三个步骤。第1步。事件我们首先生成已发生事件的数量。日常事件的数量遵循泊松分布~ 泊松(λt),其中强度λt从第3.5节场景的发生过程规范中获得。第2步。观察我们现在模拟每个发生事件的观察日期。结合方程式(6)和(7),我们可以写出从日期t开始的事件在日期s aspt上被观测到的概率,s=PU∈“s-1Xv=tαt,v,sXv=tαt,v!!。我们确定了观察日期随机变量ST=分钟s∈ NsXv=tαt,v>~U. (14) C时变观测延迟的标准分布34此表达式将时变观测延迟随机变量转换为相关观测日期。因此,Stsaties P(St=s)=pt,s。对于发生的每一个事件,我们从▄U的分布中生成一个实现。我们通过将(14)中的随机变量▄U替换为该采样值来获得相应的观测日期。第3步。通过步骤1和2,我们模拟了每个发生事件的观察日期。我们将此数据集分为观察事件和隐藏事件。我们使用观察事件的数据集来校准模型并预测隐藏事件的数量。隐藏事件仅用于评估预测精度。C时变观测延迟的标准分布将时变观测延迟建模为指数分布具有显著的计算效益。因此,本节重点讨论将指数分布用作时变观测延迟建模的标准分布。

44
mingdashike22 在职认证  发表于 2022-6-2 21:46:45
由于指数分布是轻尾分布,因此不太适合长尾或重尾延迟。我们概述了解决指数分布这一弱点的策略。我们的策略是对可能的观测延迟进行分类-t=0,1,…)并用延迟协变量xDelay对这些箱子进行分类-t、 然后将该协变量纳入观察暴露规范。对于每个箱子,我们估计一个参数,以捕捉其对观察暴露的影响。这些参数可以强烈地重塑分布,从而克服指数分布的许多缺点。我们在附录C.1中提出了一种最大似然驱动的装箱策略,然后附录C.2通过将我们的方法与非参数Kaplan-Meier估计量联系起来,得出了相同的装箱策略(Kaplan和Meier,1958)。C、 1装箱观察延迟当观察曝光量取决于事件发生后经过的时间,即αt,s=exp(γ延迟·xdelays),我们的装箱策略将(8)中的对数可能性最大化-t) =exp(γs-t),其中我们估计每个延迟s- t是一个单独的参数γs-t。此外,我们忽略了(8)中的最后一项,捕捉了右截断的影响。在这些限制条件下,要优化的时变观测延迟35loglikelion的标准分布为`(γ;χ)=-τXt=1τ-1Xv=tτXs=v+1Nt,sexp(γv-t)+τXt=1τXs=tNt,s·log1.- 经验值(-exp(γs-t)我们计算`(γ;χ)对于正延迟d的观测曝光参数γdF的导数∈ N`(γ; χ)γd=-exp(γd)·τ-d-1Xt=1τXs=t+d+1Nt,s+exp(γd)exp(exp(γd))- 1·τ -dXt=1Nt,t+d。此表达式中的两个和都有逻辑解释。第一和(Pτ-1.-dt=1Pτs=d+t+1Nt,s)统计延迟超过d天的观察事件的数量,而第二和(Pτ-dt=1Nt,t+d)计算延迟正好为d天的所有事件。

45
nandehutu2022 在职认证  发表于 2022-6-2 21:46:49
当nexp(γd)=-日志1.-|延迟=d | |延迟>d|, (15) 其中| delay=d |表示延迟d天观察到的事件数量,| delay>d |表示延迟超过d天的事件数量。我们建议通过将(15)近似为常数的延迟分组来划分观测延迟。图15显示了第3节讨论的责任保险数据集的这种方法。该图以红色显示了使用近似值(15)估计的延迟参数。顶部面板显示了最长31天的延迟估计,而最长400天的延迟参数显示在底部面板中。基于这一知识,observationdelay被分组在23个箱子中,由图15中的垂直灰色条分隔。对于短延迟,我们使用了更多的箱子,因为对于这些延迟(15)差异很大。此外,许多事故的观察延迟很短,这使得这些首次延迟更加重要。正如预期的那样,这种分类策略确定了整整一年后观察概率的增加。在第3节中,我们以分类延迟协变量xDelay构建这些箱子-并在最大似然框架下估计观测延迟。图15中,拟合参数以蓝色绘制。这些参数与使用近似法(15)发现的参数不同,因为其他协变量效应是同时估计的。

46
mingdashike22 在职认证  发表于 2022-6-2 21:46:52
然而,最大似然估计值接近近似值,这使得该近似值适合在校准中选择初始值。C、 2与Kaplan-Meier估计器的联系我们表明,在附录C.1的装箱策略下,时变模型与Kaplan-Meier估计器具有相同的灵活性,因此适用于建模广泛的投资组合。C时间变化观察延迟的标准分布360.000.050.100.150.200.250 10 20 30索赔发生后的延迟暴露0.000.020.040.0632 100 200 300 400索赔发生后的延迟暴露近似最大似然估计图15:索赔发生后第一个月内延迟效应的观察暴露估计意外发生(顶部)和更长的延迟(底部)。在红色中,我们显示了使用(15)获得的每个时段的估计值。垂直线表示所选的箱子。第3.2节中提出的回归结构中每个箱子对应的观测延迟参数的最大似然估计值以蓝色绘制。观测延迟随机变量生存函数的Kaplan-Meier估计为P(延迟>d)=dYi=01.-|延迟=i | |延迟>i|, (16) 当我们使用指数分布对时变观测延迟分布U进行建模时,则事件从发生之日起的存活概率为t isP(延迟>d | occ.day=t)=PU>Дt(d+1)(17)= 1 - F▄Ud+1Xi=1αt,t+i-1!=dYi=0exp(-αt,t+i)。注意这个表达式和(16)中的Kaplan-Meier估计量之间的相似性。当观察曝光仅取决于事件发生后经过的时间,即αt,t+i:=αi,则p(延迟>d)=dYi=0exp(-αi),其中αi是延迟i时的观察暴露。

47
可人4 在职认证  发表于 2022-6-2 21:46:55
该表达式不再依赖于事件发生日期t的时变观测延迟37a的标准分布。当αi=-日志1.-|延迟=i | |延迟>i|. (18) 由于αi=exp(γi),这与我们在(15)中通过最大似然估计发现的估计量相同。这表明,通过估计每个延迟的单独延迟参数(d=0,1,…)我们得到了一个与非参数Kaplan-Meier估计具有相同灵活性的模型。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-30 11:22