楼主: 大多数88
1939 69

[量化金融] 损失数据分析 [推广有奖]

51
mingdashike22 在职认证  发表于 2022-6-10 11:46:32
在泊松情况下,为了推导其平均值,我们使用了kpk=λpk的事实-1,k≥ 1,可等效表示为aspkpk-1=λk,k≥ 有趣的是,我们可以类似地表明,对于二项式分布pkpk-1=-第一季度- q+(m+1)q1- qk、 k=1,m、 对于负二项分布pkpk-1=β1 + β+(r)- 1)β1 + βk、 k级≥ 1、以上关系均为formpkpk-1=a+bk,k≥ 1.(2.6)关系。从leta<0开始。在这种情况下为(a+b/k)→ a<0询问→ ∞, 左边的比率是非负的,因此ifa<0则应满足B=-ka,为了somek≥1、任何一对(a、b)都可以写为-第一季度- q、 (m+1)q1- q, q∈ (0,1),m≥ 1.对应于VAgecat12.4。估计频率分布39注意,当a<0且a+b=0时,会产生退化的at 0分布,这是q=0且任意m的二项分布≥ 1、在ofa=0的情况下,再次通过比率k/pk的非负性-1、我们有≥如果b=0,则分布为qλ分布,β=0。如果b>0,那么很明显,这样的分布是泊松分布,平均值(即λ)等于b。在a>0的情况下,同样通过比率k/pk的非负性-1,我们有A+b/k≥0表示所有K≥其中最严格的是不平等A+b≥注意,A+b=0再次导致0处的简并度;排除这种情况,我们有a+b>0或等效的yb=(r-1) A大于0。一些代数很容易得出pk的以下表达式:pk=k+r- 1公里pak,k=1,2。当nr>0时,上述级数收敛于a<1,其和由p给出*((1-(a)(-r)-1). 因此,将后者等于1- pwe getp=(1- (a)(-r) 。

52
大多数88 在职认证  发表于 2022-6-10 11:46:35
所以在这种情况下,对(a,b)的形式是(a,(r-1) a),对于r>0和0<a<1;由于等效参数化为(β/(1+β),(r-1) β/(1+β)),对于r>0和0<β,我们从上面可以看出,这种分布是负二项分布。从上述发展中,我们看到,复发率(2.6)不仅将这三种分布联系在一起,而且还刻画了它们的特征。因此,在精算文献中,这三种分布统称为(a、b、0)类分布,其中0表示复发的起点。注意,(a,b)所暗示的Pis值,因为概率之和必须为1。当然,(2.6)正如APK所看到的,即使在频率分布属于(a,b,0)类的复合分布的情况下,它也会这样做——这一事实是从这个角度研究这三种分布的更重要的动机。示例2.3.1。离散概率分布具有以下性质pk=c1+k主键-1k=1,2,3。p=确定该离散随机变量的期望值。示例解决方案:由于pmf满足(a,b,0)递推关系,我们知道基础分布是b/a)等于2,我们知道它是负二项分布,r=3。此外,因为对于负的binomialp=r(1+β)-(r+1)β,我们有β=3。最后,由于负二项式isrβ的平均值,因此给定分布的平均值等于9.2.4估计频率分布2.4.1参数估计在第2.2节中,我们介绍了三种重要分布,用于建模来自保险的各类计数数据。

53
mingdashike22 在职认证  发表于 2022-6-10 11:46:39
现在让我们假设我们有一组计数数据,我们希望对其进行分布,并且我们已经确定其中一个(a、b、0)分布比其他分布更合适。由于如果我们允许其参数取任何允许值,其中每一个都会形成一类分布,因此仍然需要确定手头数据的参数的最佳值。这是a40第2章。最大似然频率模型通常会产生有效的估计量。在本节中,我们将描述这种范式并推导最大似然估计(MLE)。假设我们观察到iid随机变量X,X,xn来自pmfpθ的分布,其中θ是Θ中的未知值 Rd.例如,在泊松分布pθ(x)=e的情况下-θθxx!,x=0,1,Θ=(0,∞). 在二项分布的情况下,我们有pθ(x)=mx公司qx(1- q) m级-x、 x=0,1,m、 θ:=(m,q)∈ {,,, . . .} ×(0,1).让我们假设观测值为x,…,xn;在这种情况下,从pθequalsnYi=1pθ(xi)观测该样本的可能性。Lθ依赖于数据,强调我们将其视为参数的函数。例如,在泊松分布的情况下,我们有l(λ)=e-nλλPni=1xinYi=1xi!!-1.在二项分布的情况下,我们haveL(m,q)=nYi=1mxi公司!qPni=1xi(1- q) 纳米-Pni=1xi。θ的最大似然估计量(mle)是似然的任何最大化子;在某种意义上,最大似然估计选择了最能解释观测结果的参数值。考虑来自aBernoulli分布(m=1的二项式)的3号样本,其值为0,0。这种情况下的可能性很容易检查为等式(q)=q(1- q) ,图2.1给出了可能性图。

54
nandehutu2022 在职认证  发表于 2022-6-10 11:46:42
如图所示,似然/q/q/的最大值可以借助代数来表示q(1- q)=q-q-+,并得出结论,最大值等于4/27,在Q=1/3时达到(利用第一项为广义的事实。通常,人们借助微积分来推导mle-注意,对于某些可能性,可能必须求助于其他优化方法,尤其是当可能性有许多局部极值时。通常会等效地最大化可能性的对数(·),以byl(·)表示,并查看其第一个导数(·)的零集。在上述可能性的情况下,l(q)=log(q)+2 log(1- q) ,andl(q):=ddql(q)=q-1.- q、 l(·)的唯一零点等于1/3,sincel(·)为负,我们有1/3是likelihood的唯一最大化子,因此它的mle。我们在这里使用矩阵导数。使用l(·)的一个小小好处是,l(·)中的常数项不会出现在l(·)中,而会出现在l(·)中。2.4. 估计频率分布41图2.1:伯努利2.4.2频率分布中(0,1,0)3样本的可能性mle在下面,我们推导(a,b,0)类的三个成员的mle。我们首先总结上面的讨论。在观察iid随机变量X,X,xn来自pmf pθ的分布,其中θ是Θ中的未知值 Rd,似然L(·),一个函数定义为L(θ):=nYi=1pθ(xi),其中x,X测量观察值。

55
mingdashike22 在职认证  发表于 2022-6-10 11:46:46
θ的最大似然估计量(mle),表示为^θMLEisa函数,该函数将观测值映射到L(·)的最大化子集的一个元素,即{θ| L(θ)=maxη∈ΘL(η)}。注:上述数据集是观测值的函数,即使这种依赖关系没有明确说明。在我们将研究的三种分布的情况下,通常情况下,上述集合是一个单子,概率趋于1(随着样本量的增加)。换言之,对于许多常用的分布,当样本量较大时,最大似然估计是以高概率唯一定义的。在下面,我们将假设我们观察到NIID随机变量X,X,xn来自考虑中的分布,即使参数值未知。还有,x,x,xn表示观察值。我们注意到,在计数数据和离散分布数据的情况下,概率可以交替表示为l(θ):=Yk≥0(pθ(k))mk,其中mk:=|{i | xi=k,1≤ 我≤ n} |=nXi=1I(xi=k),k≥ 0.n效率意义上的数据。下面,我们用{mk}k表示mle的表达式≥1很好。MLE-泊松分布:在这种情况下,如上所述,似然值由l(λ)=nYi=1xi给出!!-1e级-nλPni=1xi,这意味着l(λ)=-nXi=1log(xi!)- nλ+对数(λ)·nXi=1xi,42第2章。频率建模ANDL(λ)=-n+λnXi=1xi。Sincel<0如果pni=1xi>0,则在样本平均值处达到最大值。相反,最大值是指最小可能的参数值,即mle等于零。因此,我们有^λMLE=nnXi=1Xi。请注意,样本平均值也可以按NXK计算≥1kmk。值得注意的是,在泊松分布的情况下,当基础分布为泊松分布时,^λmle的精确分布以闭合形式可用,即标度泊松分布。这是因为独立泊松随机变量之和也是泊松分布。

56
mingdashike22 在职认证  发表于 2022-6-10 11:46:49
当然,对于大样本量,可以使用ordinaryCentral极限定理(CLT)导出法向近似。请注意,如果基础分布是具有有限秒矩的任何分布,则后一种近似值为7。MLE-二项式分布:与泊松分布的情况不同,中的参数空间通过观察似然值由l(m,q)=nYi=1给出mxi公司!qPni=1xi(1- q) 纳米-Pni=1xi,对数似然比byl(m,q)=nXi=1logmxi公司+nXi=1xi!对数(q)+nm-nXi=1xi!日志(1- q) 。请注意,因为CEM只取非负整数值,所以我们无法使用多元微积分来找到最佳值。然而,我们可以使用单变量微积分来证明^qMLE×^mMLE=nnXi=1Xi。(2.7)对此,我们注意到,对于m的固定值,Δδql(m,q)=nXi=1xi!q-纳米-nXi=1xi!1.- q、 Δδql(m,q)=-“nXi=1xi!q+nm-nXi=1xi!(1 - q)#≤ 0.以上表明,对于m的任何固定值,q满足的最大值q=nnXi=1Xi,因此我们建立了方程(2.7)。以上将任务简化为搜索^mMLE,它是2.4最大化器集合的成员。估计频率分布43Lm,nmnXi=1xi!。(2.8)注意,对于小于max1的m值,可能性为零≤我≤nxi,因此^mMLE≥ 最大值1≤我≤nxi。^mMLE^mMLEequal∞, 表明泊松分布比任何二项分布都更适合。这是因为带有参数(m,x/m)的二项分布接近带有参数x的泊松分布,并使用MapProaching in-finity。

57
可人4 在职认证  发表于 2022-6-10 11:46:52
一些数据集倾向于泊松分布这一事实并不令人惊讶,因为在上述意义上,泊松分布集位于二项分布集的边界上。有趣的是,在(Olkin et al.,1981)中,他们表明,如果样本平均值小于或等于样本方差,则^mMLE=∞; 否则,存在一个使方程(2.8)最大化的单元。在图2.2L中m、 nmPni=1xi样本最大值。(2,,,,5)中的第一个样本的样本平均值与样本方差的比率大于1(1.875),而(2,,,,6)中的第二个样本的比率等于1.25,接近于1,而(2,,,,7)中的第三个样本的比率小于1(0.885)。对于这三个样品,如图2.2所示,^mMLEequals 7、18和∞, 分别地注意,L的极限值m、 nmPni=1xiasm接近完整等式Nyi=1xi!!-1exp(-nXi=1xi)xnx。(2.9)此外,请注意,图2.2表明,最大似然估计是非稳健的,即数据集的一小部分变化可能会导致估计量发生较大变化。上述讨论提出了以下简单算法:o步骤1。如果样本均值小于或等于样本方差,则^mMLE=∞. mle建议的分布是一个泊松分布,λ=x。Lm,x/mm大于或等于样本最大值,直到(m,x/m)接近泊松(?)的值mLm,x/m计算值等于^mMLE。我们注意到,如果基础分布是具有参数(m,q)(q>0)的二项分布,并且以概率1收敛到q.MLE-负二项分布:负二项分布的情况与二项分布的情况类似,因为我们有两个参数,并且极大似然估计不可用。

58
kedemingshi 在职认证  发表于 2022-6-10 11:46:55
它们之间的区别在于,与二项式参数采用正整数不同,负二项式参数可以采用任何正实值。这使得优化问题更加复杂。我们首先观察到可能性可以用以下形式表示:L(r,β)=nYi=1r+xi- 1十一!(1 + β)-n(r+x)βnx。上述情况意味着对数似然度由l(r,β)=nXi=1log给出r+xi- 1十一- n(r+x)log(1+β)+nx logβ,44第2章。频率建模图2.2:二项分布的L(m,x/m)曲线图,因此ΔΔβL(r,β)=-n(r+x)1+β+nxβ。将上述值等于零,我们得到^rMLE×^βMLE=x。上述值将二维优化问题简化为一维问题-我们需要最大化(r,x/r)=nXi=1logr+xi- 1十一- n(r+x)log(1+x/r)+nx log(x/r),关于tor,最大化rB为其mle,βmle=x/rMLE。在(Levin et al.,1977)中,它显示出>lr,x/rrβ^σ≤ xlikelihood将由^λ=x的泊松可能性决定-换句话说,泊松分布会更好地拟合数据。^σ>^u的保证允许我们使用任何算法来最大化l(r,x/r)。对于计算可能性的另一种方法,我们注意到L(r,x/r)=nXi=1xiXj=1log(r- 1+j)-nXi=1log(xi!)- n(r+x)log(r+x)+nr log(r)+nx log(x),其产生nΔδrl(r,x/r)=nnXi=1xiXj=1r- 1+j- 对数(r+x)+对数(r)。我们注意到,在上述表达式中,如果xi=0,则内和等于0。mle forris是最后一个表达式的零,因此可以使用寻根算法来计算它。还有,我们有nΔδrl(r,x/r)=xr(r+x)-nnXi=1xiXj=1(r- 1+j)。巴比伦人被认为是用来计算平方根的。将牛顿方法应用到我们的问题中会得到以下算法:2.4。估计频率分布45步骤i.选择近似解,例如r。

59
nandehutu2022 在职认证  发表于 2022-6-10 11:46:58
将k设置为0。第二步。定义rk+1asrk+1:=rk-nPni=1Pxij=1rk-1+j- 对数(rk+x)+对数(rk)xrk(rk+x)-nPni=1Pxij=1(rk-1+j)步骤iii.如果rk+1~ rk,然后报告rk+1as MLE;否则,将k增加1,然后重复步骤ii、、、、、。,,,,randβ=5。选择r的起始值,使rβ=^u且rβ(1+β)=^σ,则起始值为23.14286。牛顿法中r的迭代次数为21.39627、21.60287、21.60647、21.60647;上面看到的快速收敛是牛顿方法的典型特征。因此,在本例中,^rMLE~.和^βMLE=8.3308R牛顿法的实现-rShow R CodeNewton的负二项式MLE<-函数(x,abserr){mu<-均值(x);sigma2<-均值(x^2)-mu^2;R<-mu^2/(sigma2 mu);b<-真;iter<-0;而(b){tr<-R;m1<-均值(c(x[x==0],sapply(x[x>0],函数(z){和(1/(tr-1+z))));m2<-均值(c(x[x==0),sapply(x[x>0],函数(z){和(1/(tr:(tr-1+z))^2)}));r<-tr-(m1 log(1+mu/tr))/(mu/(tr*(tr+mu))-m2);b<-!(abs(tr-r)<abserr);iter<-iter+1;}c(r,iter)}为了总结我们对(a,b,0)类分布的mle的讨论,在下面的图2.3中,我们绘制了表2.1中给出的三个大小为5的样本的泊松似然的最大值,L(m,x/m)为二项,L(r,x/r)为负二项。数据的构建涵盖了样本均值和方差的三个顺序。如图2.3所示,并由理论支持,如果^u<σ,则负二项式将导致更高的最大似然值;如果^u=^σ,泊松将具有最高的似然值;最后,在^u>^σ的情况下,二项式将给出比其他方法更好的结果。

60
能者818 在职认证  发表于 2022-6-10 11:47:01
So在用(a,b,,)分布拟合频率数据之前,最好先检查^^^σ边界^u的顺序≥ ^σ^u ≤ ^σ二项式(分别为二项式),这也将由^r=∞ (^m=∞, 各自)。数据平均值(μ)方差(σ)(2,3,6,8,9)5.60 7.44(2,5,6,8,9)6 6(4,7,8,10,11)8 646第2章。频率建模图2.3:(a,b,0)部分最大化概率图稳定2.1:大小为52.5的三个样本其他频率分布在上面,我们讨论了三个分布,其支持度包含在非负整数集中,这很好地满足了许多保险应用。此外,通常通过允许参数是已知(保险人)解释变量(如年龄、性别、地理位置(地区)等)的函数,这些分布允许我们根据这些变量解释索赔概率。研究此类模型的统计研究领域被称为回归分析——这是我们在本书中不会探讨的一个重要的实际兴趣话题;参见(Frees,2009a)。零计数,与其他计数的相对概率分配无关。自然由同质子集组成的数据集的另一个特征是,尽管上述分布可能(a、b、0)分布能够特别满足此类数据集的需要。2.5. 其他频率分布472.5.1零截断或修改假设我们正在查看某个时期内出现在汽车索赔数据库中的汽车保险单。如果要研究这些保单在此期间提出的索赔数量,将影响零计数的比例。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-4 11:07