楼主: 大多数88
1913 69

[量化金融] 损失数据分析 [推广有奖]

41
nandehutu2022 在职认证  发表于 2022-6-10 11:45:49
本章讨论频率分布、度量和参数估计技术。2.1频率分布2.1.1频率如何增加严重性信息基本术语我们使用Claim表示保险事故发生时的赔偿。虽然一些作者将索赔和损失互换使用,但其他人认为损失是被保险人支付的金额,而索赔是保险人支付的金额。频率表示保险事故发生的频率,通常在保单合同中。这里,我们重点关注表示索赔数量的随机变量计数,即事件发生的频率。Severitydenotes保险事故每次付款的金额或规模。在未来的章节中,将研究将频率模型与严重性模型相结合的聚合模型。第1章FrequencyRecall的重要性在于,设定保险商品的价格可能是一个复杂的问题。在制造业中,商品的成本(相对)是已知的。在其他金融服务领域,可以获得市场价格。在保险中,我们可以将价格设置概括如下:从预期成本开始。添加“保证金”以说明产品的风险、产品维修费用以及保险公司的利润/盈余准备金。预期保险成本可以定义为预期索赔次数乘以预期金额,即直接影响损失发生的因素,从而可能产生索赔。然后可以对频率过程进行建模。32第2章。

42
kedemingshi 在职认证  发表于 2022-6-10 11:45:54
频率建模为什么检查频率信息保险公司和其他利益相关者(包括政府组织)有各种收集和维护频率数据集的动机。o合同-在保险合同中,通常会产生特定的免赔额和保单限额,以表明符合这些标准的索赔数量,从而提供独特的索赔频率度量。扩展这一点,总保险损失模型需要考虑每个保险事故的免赔额和保单限额行为-在考虑影响损失频率的因素时,风险承担和风险降低对事件发生频率与事件规模的模型产生不同影响在医疗保健领域,个人利用医疗保健的决定,以及通过预防性护理和健康措施尽量减少此类医疗保健的利用,主要与个人特征有关。每个用户的成本由个人、医疗状况、潜在治疗措施以及医疗保健提供者(如医生)和患者做出的决定决定决定。虽然这些因素以及它们如何影响医疗总成本存在重叠,但可以将注意力集中在医疗就诊频率和医疗成本严重性的单独驱动因素上指示被保险人是否在合同签订前的特定时间段内提出索赔的指标在房主保险中,在建模潜在损失频率时,保险人可以考虑房主采取的损失预防措施,例如可见的安全系统。另外,在建模损失严重程度时,保险公司将检查影响维修和安置成本的因素数据库。许多保险公司保留单独的数据文件,建议开发单独的频率和严重性模型。

43
mingdashike22 在职认证  发表于 2022-6-10 11:45:57
例如,保单持有人文件是在编写保单时建立的。该文件记录保险范围、免赔额和限额等政策信息,以及保险索赔事件。金额。(也可能有一个“付款”文件记录付款的时间安排,尽管我们在此不作讨论。)这种记录过程使得保险公司很自然地将频率和严重性建模为单独的过程监管和行政在为面临风险的个人和公司提供金融安全方面的重要性。作为其职责的一部分,监管机构通常要求报告索赔数量和金额。这可能是因为“金额”可以有其他定义,如已付与已发生,并且在报告索赔编号时,潜在错误较少。这种持续监控有助于确保这些保险公司的财务稳定。2.2基本频率分布在本节中,我们将介绍精算实践中常用的模型计数数据分布。索赔计数随机变量用n表示;就其本质而言,它只假定非负整数值。因此,下面的分布都是非负整数集(Z+)上支持的离散分布。2.2. 基本频率分布332.2.1 FoundationsSinces是一个取z+值的离散随机变量,其分布的最自然的完整描述是通过规定其假设每个非负整数值的概率。这就引出了N的概率质量函数(pmf)的概念,表示为aspN(·),定义如下:pN(k)=Pr(N=k),对于k=0,1。

44
可人4 在职认证  发表于 2022-6-10 11:46:00
(2.1)我们注意到,对n的分布有替代的完整描述或特征描述;例如,用FN(·)表示的N的分布函数如下所述:FN(x):=bxcPk=0Pr(N=k),x≥ 0;0,否则。(2.2)在上述情况下,b·C表示FLOOR功能;bxc表示小于或等于tox的最大整数。Wesurvival functionsn·FN·SN(·):=1- FN(·)。显然,后者是氮分布的另一个表征。人们通常对量化分布的某个方面感兴趣,而不是对其完整的描述。这在比较分布时特别有用。地理位置中心的分布是最受欢迎的;N的平均值用uN表示,定义为uN=∞Xk=0kpN(k)。(2.3)我们注意到uNis是随机变量的预期值,即uN=EN。这导致一般RNR>Nrand,用uN(r)表示。因此,对于r>0,我们有uN(r)=ENr=∞Xk=0krpN(k)。(2.4)我们注意到,uN(·)是一个定义良好的非递减函数,取[0,∞), asPr(N∈ Z+=1;此外,请注意uN=uN(1)。分布的另一个基本方面是其分散性,在文献中研究的各种分散性度量中,标准偏差是最流行的。为了定义它,我们首先定义方差Fn,用Var N表示,asVar N:=E(N- uN)当unifinite时。根据随机变量预期值的基本性质,我们可以看到Var N:=EN-(英语)。用σN表示的N的标准偏差定义为Var N的平方根。注意,后者定义为Var N,定义为平均值的平均平方偏差,是非负的;Var Nis由σN表示。请注意,这两个度量值取[0,∞).例如,如果有3个风险因素,每个风险因素的级别数分别为2、3和4,那么我们有k=(2- 1) × (3 - 1) × (4 - 1) =6.34第2章。

45
大多数88 在职认证  发表于 2022-6-10 11:46:04
频率建模2.2.2矩和概率生成函数我们将介绍两个在处理计数变量时有用的生成函数。回想一下,N的矩母函数(mgf)表示为MN(·),定义为asMN(t)=E etN=∞Xk=0etkpN(k),t∈ R、 我们注意到,whileMN(·)定义得很好,因为它是一个非负随机变量(etN)的期望值,尽管它可以假设∞. 请注意,对于计数随机变量,MN(·)的有限值为(-∞,0]mn(0)=1。以下定理的证明见(Billingsley,2008)(第285-6页),概括了其命名的原因。定理2.1。计算一个随机变量,使Eet*somet的Nis定义*>我们有以下几点:N的所有时刻都是有限的,即ENr<∞, r≥ 0.mgf可用于生成其力矩,如下所示:dmdtmMN(t)t=0=ENm,m≥ 1、mgf-MN(·)表征了其分布;换句话说,它独特地规定了分布。mgf作为工具非常有用的另一个原因是,对于两个独立的随机变量X Andy,当其mgf存在于0附近时,X+Y的mgf是其各自mgf的乘积。与mgf相关的生成函数称为概率生成函数(pgf),它是随机变量取z+值的有用工具。对于随机变量,我们用PN(·)表示其Pgfan,并将其定义为:PN(s):=E sN,s≥ 0。(2.5)很容易看出,如果mgf MN(·)存在于(-∞, t型*) 然后pn(s)=MN(log(s)),s<et*.此外,如果pgf存在于间隔[0,s*) 带*>1,则mgfMN(·)存在于(-∞, 日志(s)*)),Nof定理2.1,尤其是它的名字。定理2.2。计算一个随机变量,使E(s*)为某些人确定*>1.

46
大多数88 在职认证  发表于 2022-6-10 11:46:07
我们有以下几点:N的所有时刻都是有限的,即Nr<∞, r≥ 0.N的pmf可从pgf中导出,如下所示:pN(m)=PN(0),m=0;m!dmdsmPN(s)s=0,m≥ N的阶乘矩可导出如下:dmdsmPN(s)s=1=Em-1Yi=0(N- i) ,m≥ 1、pgf PN(·)表征了分布;换句话说,它独特地规定了分布。2.2. 基本频率分布352.2.3重要频率分布在本小节中,我们将研究统计学中使用的三种重要频率分布,即二项分布、负二项分布和泊松分布。在下文中,风险是指由保险覆盖的单位。风险可能是个人、建筑物、公司或其他提供保险的身份。在上下文中,假设一个保险数据集包含索赔数量或以其他方式分层。出于各种原因,上述分配碰巧也是保险实践中最常用的分配,其中一些我们在下文中提到这些分布可以由自然随机实验激发,这些实验很好地近似于许多保险数据产生的实际生命过程。因此,毫不奇怪,他们一起完成了这一章它们为生成其他分布提供了足够丰富的基础,这些分布更接近奥威尔,更符合我们感兴趣的真实情况这三种分布要么是单参数分布,要么是双参数分布。在设置数据时,为参数指定一个特定值。通过将参数视为具有自身概率分布的随机变量(或向量),可以将这组分布扩大到其凸包,而这组更大的分布具有更大的灵活性。

47
大多数88 在职认证  发表于 2022-6-10 11:46:10
这样的扩大可以更好地解决一个简单的例子,即由属于许多不同风险类别的被保险人产生的索赔组合在保险数据中,我们可能会观察到少量或过多的零,即风险索赔为零。当符合数据时,其标准规范中的频率分布往往无法合理解释这种情况。然而,对上述三种分布的自然修改很好地适应了这一现象,以提供更好的回报。在保险领域,我们对支付的总索赔感兴趣,其分布是由确定的频率分布和严重性分布组成的。这三种分布的特性使其易于处理生成的聚合严重性分布。二项式分布我们从二项式分布开始,二项式分布源于任何一系列相同且独立的抛投实验,结果是正面或反面。因此,如果在一系列的独立抛硬币实验中,用相同的硬币记录人头数,该硬币的正面概率为qnm、qminteger和q∈[0,1]. 注意,当nq=0(分别,q=1)时,分布退化为N=0(分别,N=m),概率为1。显然,它的支持∈(0,1)等于{,,…,m},pmf givenbypk:=mk公司qk(1- q) m级-k、 k=0,m、 之所以命名为pmf,是因为pmf从(q+(1)的二项展开式中得出的项中取值- q) )m。然后,此实现导致二进制分布的pgf的以下表达式:P(z):=mXk=0zkmk公司qk(1- q) m级-k=mXk=0mk公司(zq)k(1- q) m级-k=(qz+(1- q) )m=(1+q(z)- 1) )m.在(8.4)中已经暗示了更喜欢乘法形式而不是其他形式(例如加法形式)。36第2章。

48
何人来此 在职认证  发表于 2022-6-10 11:46:23
频率建模注意,pgf的上述表达式证实了一个事实,即二项分布是伯努利分布的卷积,伯努利分布是m=1和pgf(1+q(z))的二项分布-1)). 此外,请注意,二项分布的mgf由(1+q(et- 1) 二项分布的中心矩可以通过几种不同的方式找到。为了强调这是伯努利分布的am卷积这一关键性质,我们利用这一性质推导了下面的矩。我们首先观察到带有参数Qassigns的贝努利分布的Qand概率- qto分别为1和0。因此,其平均等式q(=0×(1- q) +1×q);注意,其原始第二动量等于其平均值asN=nw,概率为1。利用这两个事实,我们可以看到方差等于Q(1-q) 。继续讨论带参数的二项式分布,利用贝努利分布的卷积,我们写出n,…,的和,Nm,其中iid Bernoulli变量为。现在,利用伯努利矩和期望的线性,我们可以看到e N=EmXi=1Ni=mXi=1E Ni=mq。此外,利用独立随机变量之和的方差是其方差之和的事实,我们可以看到Var N=VarmXi=1Ni=mXi=1Var Ni=mq(1- q) 。练习中建议对上述力矩进行交替推导。特别是从应用的角度来看,一个重要的观察结果是,除非q=0,否则平均值大于方差。泊松分布(Poisson DistributionPoisson)可能是最广为人知的离散分布。这在一定程度上是因为,如果某类事件的发生率是一个常数,它自然会随着某一时间段内某类事件随机发生次数的分布而上升。

49
kedemingshi 在职认证  发表于 2022-6-10 11:46:26
与此相关,它也作为m的二项分布的渐近极限出现→ ∞ 和mq→ λ.泊松分布由一个参数参数化,该参数通常由λ表示,取(0,∞). 其pmf由pk=e给出-λλkk!,k=0,1。很容易检查上述各项是否为pmf,因为这些项显然是非负的,并且它们的总和符合eλ的有限泰勒级数展开式。更一般地,我们可以推导出它的pgf,P(·),如下所示:P(z):=∞Xk=0pkzk=∞Xk=0e-λλkzkk!=e-λeλz=eλ(z-1), z∈ R、 从上面,我们推导出其mgf如下:M(t)=P(et)=eλ(et-1) ,t∈ R、 在推导其平均值时,我们注意到对于泊松分布kpk=(0,k=0;λpk-1,k≥ 1.这很容易检查。特别是,这意味着e N=Xk≥0k pk=λXk≥1件-1=λXj≥0pj=λ。2.2. 基本频率分布37事实上,更一般地,使用上述的推广或使用定理2.2,我们可以看到-1Yi=0(N- i) =dmdsmPN(s)s=1=λm,m≥ 这尤其意味着Var N=E N- (E N)=E N(N- 1) +E N- (E N)=λ+λ- λ= λ.注意,有趣的是,对于泊松分布Var N=E N。负二项分布,第三个重要的计数分布是负二项分布。回想一下,二元分布是指二元结果实验的独立重复中成功次数的分布。相反,如果我们考虑成功的数量,直到我们观察到参数中的失败是任何正实数,不幸的是,如果不是整数,上述随机实验将不适用。为了更普遍地激发分布,并在解释其名称的过程中,我们回顾了二项式序列,即(1+x)s=1+sx+s(s- 1)2!x+。

50
可人4 在职认证  发表于 2022-6-10 11:46:29
..., s∈ R|x |<1。如果我们定义sk公司, 广义二项式系数sk公司=s(s)- 1) ···(s)- k+1)k!,那么我们有(1+x)s=∞Xk=0sk公司xk,s∈ R|x |<1。如果我们让s=-r、 然后我们看到,上述结果(1- x)-r=1+rx+(r+1)r2!x+=∞Xk=0r+k- 1公里xk,r∈ R|x |<1。这意味着如果我们定义pkaspk=k+r- 1公里1 + βrβ1 + βk、 k=0,1。对于r>0且β>=0,则定义有效的pmf。这种定义的分布称为参数(r,β)为负二项分布,r>0和β≥此外,二项式级数还意味着该分布的thepgf由p(z)=(1)给出- β(z- 1))-r、 | z |≤ 1 +β, β ≥ 0.以上表示mgf由m(t)=(1)给出- β(et- 1))-r、 t型≤ 日志1 +β, β ≥ 我们使用定理2.1推导其矩,如下所示:38第2章。频率建模N=M(0)=rβet(1- β(et- 1))-r-1.t=0=rβ;E N=M(0)=rβet(1- β(et- 1))-r-1+r(r+1)βe2t(1- β(et- 1))-r-2.t=0=rβ(1+β)+rβ;和EN=EN- (EN)=rβ(1+β)+rβ- rβ=rβ(1+β)我们注意到,当β>0时,我们有Var N>EN。换言之,这种分布是均匀分布的(相对于泊松分布);类似地,当q>0时,二项分布被称为欠分散(相对于泊松分布)。最后,我们观察到泊松分布也是负二项分布的一个极限。为了确定这一点,让βrbe使α-α-β-α-α-β-β-α-β-β-β-β-β-β-β-β-β-β-α>0。然后,我们发现参数为(r,βr)的负二项分布的MGF满足→0(1 - βr(et- 1))-r=exp{λ(et- 1) },上述方程的右侧是参数为λ2.3的泊松分布的mgf,在上一节中,我们研究了三种分布,即二项分布、泊松分布和负指数分布。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-23 06:08