楼主: mingdashike22
1619 58

[量化金融] ABC中的模型规格错误:后果和诊断 [推广有奖]

51
可人4 在职认证  发表于 2022-6-1 05:23:12
Q025代表不同方法中2.5%后验分位数的中位数(在重复数中),而Q975代表相应的97.5%分位数。σ=1 Cov Len Std Q025 Q975ABC-AR 0.982 0.461 0.120 0.770 1.234ABC-RegN 0.938 0.385 0.100 0.802 1.190ABC-Reg 0.941 0.3 82 0.100 0.811 1.192ABC-NN 0.950 0.385 0.100 0.811 1 1.194ABC-RegNC 0.938 0.389 0。100 0.802 1.193ABC-RegC 0.945 0.3 86 0.100 0.809 1.197ABC-NNC 0.941 0.384 0.101 0.808 1.200σ=2 Cov Len Std Q025 Q975ABC-AR 0.961 0.6 14 0.158 0.698 1.310ABC-RegN 0.802 0.383 0.100 0.809 1.194ABC-Reg 0.717 0.3 82 0.100 0.818 1.200ABC-NN 0.729 0.428 0.113 0.766 1.204ABC-RegNC 0.809 0.387 0。100 0.805 1.194ABC-RegC 0.645 0.3 61 0.094 0.791 1.223ABC-NNC 0.636 0.383 0.100 0.773 1.201σ=3 Cov Len Std Q025 Q975ABC-AR 0.913 0.6 13 0.157 0.694 1.311ABC-RegN 0.707 0.383 0.099 0.816 1.195ABC-Reg 0.460 0.81 0.100 0.791 1 1 1.180ABC-NN 0.419 0.479 0.128 0.632 1.137ABC-RegNC 0.708 0.386 0。100 0.811 1.199ABC-RegC 0.462 0.2 61 0.069 0.700 1.249ABC-NNC 0.409 0.383 0.101 0.624 1.171C附加示例:错误指定的g-and-k模型为了进一步证明不同ABC方法在模型错误指定下的行为,我们考虑基于g-and-k分布的附加示例,这是ABC文献中经常使用的一个例子,用于比较不同ABC方法的行为(参见Drovandi和Pettitt,2011,Fearnhead和Prangle,2012,以及Bernton et al.,2019)。g-andk模型最常见的表述是通过它的分位数函数:q∈ (0, 1) 7→ a+b1 + 0.81 - 经验值(-gz(q)1+经验(-gz(q)1+z(q)kz(q),其中z(q)表示标准正态分布的第q个分位数。g和k分布的四个参数有特定的解释。参数a表示位置,b表示刻度,而g和k分别控制偏度和峰度。

52
能者818 在职认证  发表于 2022-6-1 05:23:15
继Drovandi和Pettitt(2011)之后,我们考虑了以下关于参数的先验知识a~ U【0,10】,b~ U【0,10】,g~ U[0,1 0]b~ U[0,10],其中U[0,1]表示[0,1]上的统一rm分布。g-and-k模型中基于ABC的推理通常使用模拟和观测数据的分位数进行。因此,在下文中,我们将数据的八位字节作为我们的汇总统计数据:oηj(y)=Oj(y),对于1,7,其中(O,…,O)将数据分成八个相等的部分。g-and-k分布是一类高度灵活的分布,能够用复杂的无条件分布建模数据。虽然高度灵活,但g和k分布是单峰的,无法捕获数据中可能存在的多模态。在本节中,我们比较了当基本假设数据来自g-and-k分布时,不同基于ABC的程序的行为,但当观测到的数据实际上是从具有次要双峰的分布生成时。特别是,我们从高斯混合中生成观测数据iid~ w·N(u,σ)+(1- w) ·N(u,σ)。(20) 在下文中,我们将方程式(20)中的参数固定为(u,σ)= (1, 2), (u, σ)= (7, 2), w=0.9。该DGP产生的观测数据显示出正偏度和过度峰度,这是因为密度在数据的右尾显示出一个较小的“驼峰”。选择该规范是为了在观测数据中生成较小的双峰,这是g-and-k模型无法捕捉到的特征。

53
kedemingshi 在职认证  发表于 2022-6-1 05:23:18
为了便于说明,图10给出了从该混合模型模拟的大小为n=100的代表性数据集的核密度。-6.-4.-2 0 2 4 6 8 10 120.10.2 ykernel密度:y~ 0.90·N(1,2)+0.10·N(7,2)图10:方程式(20)中DGP模拟数据的欧内斯密度。C、 1蒙特卡罗实验与本文中的示例1相似,我们现在比较ABC-AR和各种局部ABC回归调整的行为。特别是,我们考虑以下局部回归调整:ABC-R eg(标准加权局部线性调整,Beaumont et al.,2002),ABC RegN(我们的加权局部线性调整)和ABC-NN(使用神经网络的局部非线性回归调整,Blum和Fran,cois,2010)。根据方程式(20)中的DGP,我们对观测数据y模拟n=100个观测值。正如正文中的示例1一样,每个ABC程序基于n=25000个模拟图,其中公差选择为总模拟距离的1%分位数。对于ABC-AR,我们使用欧几里德范式。图11绘制了代表性实验中g和k分布四个参数的不同ABC方法的后验值。0.9 0 .92 0.94bRegN1.28 1.3 1.321.341.36aRegN-1 0 1 2 30.20.40.6aAR0 2 40.20.40.60.8bAR-5 0 5 10 152 · 10-24 · 10-26 · 10-28 · 10-20.1加仑-50.10.20.3灰色-15-10-50.10.20.3gReg1.36 1.38 1.4bReg1.61.621.641.661.681.7aReg0.5 1 1.5 2 2.50.51.5aNN0.5 1 1.5 2 2 2 2.5bNN-10-5 00.20.40.60.8gNN0 2 4 6kNN0 50.20.40.60.8kReg0 50.20.40.6kRegN0 5 100.20.40.6KAR图11:g-and-k模型中各种ABC程序的后验比较,当公式(20)给出trueDGP时。分析图11,三个特征立即显现出来。

54
可人4 在职认证  发表于 2022-6-1 05:23:21
首先,对于大多数ABC过程,以及几乎所有参数,后验概率都是非高斯的(如正文中定理2的结果所示)。其次,在各个参数中,不同的ABC程序产生具有非常不同行为的后验概率,这反映了示例1中观察到的结果。如前所述,这种行为是公认的ABC-AR图纸局部回归调整转换的直接结果。第三,对于G参数,局部回归后验概率将显著质量置于原始先验空间之外,即U[0,10]。类似地,对于参数k,这些程序会产生一些k的负值。考虑到实际的gP和假设的g-and-k分布之间不匹配的特殊性质,后一个特征很麻烦。特别是,实际GP中的理论矩表明,粒子偏度大于1.5,剩余峰度接近3。回顾g和k分布中的偏度和峰度分别由g和k控制,我们知道g>0与正偏度相关,k<0与小于正态分布的kurto sis相关。有鉴于此,图11的结果表明,局部回归调整程序可以将显著的后质量置于g<0,即使观察数据总是正偏斜。类似地,这些程序可以在k<0时放置一些正的后部质量,即使观察到的数据显示正的过度峰度。在局部回归调整中观察到的这些行为完全是因为这些方法在调整可接受的绘图时忽略了参数空间的性质,因此可以将后部质量转移到原始参数空间之外。

55
大多数88 在职认证  发表于 2022-6-1 05:23:24
因此,在本例中,局部回归调整方法可能会产生与观测数据不兼容的g(以及较小程度的k)的显著后验masson值。与例1中得出的结论类似,局部回归调整的这种行为不是任何特定数据集的特征,而是在不同数据集之间持续存在的。为了证明这一事实,我们模拟了方程式(20)中真实DGP的1000次复制,并在这些观测数据集上重新运行每个ABC过程。在整个复制过程中,对于每个不同的ABC程序,我们记录了g和k分布中每个参数的后验平均值、标准偏差以及95%可信区域的长度,我们通过每个参数后验值的相应2.5 a和97.5分位数进行计算。在表3中,我们给出了这些复制结果的平均值。为了帮助解释表3中的结果,在讨论结果之前,我们首先计算伪真值θ*= arg最小θ∈Θkb- b(θ)k,其中我们提醒读者,bis是η(y)的概率极限,由观测数据的八进制数给出,b(θ)是η(z)的概率极限,对应于模拟数据的八进制数。为了获得这个伪真值,我们必须首先计算b,高斯混合分布的人口八位数。高斯混合的分位数函数没有闭合形式,但分位数以及b的值可以通过数值转换高斯混合的相应CDF来获得。给出b的值,以及g和k分布的分位数具有解析形式的fa ct,根据标准正态分位数函数,我们可以数值求解θ=(a,b,g,k)最大限度地减少KB-b(θ)k。

56
kedemingshi 在职认证  发表于 2022-6-1 05:23:27
使用这种方法,在这种特殊蒙特卡罗设计下的伪真值由θ给出*= (a)*, b*, g级*, k*)= (1.17 , 1.50, 0.41, 0.23 ). (21)θ的这个值*对应于正偏态和峰度大于正态分布的g-and-k分布。因此,正如人们所希望的那样,伪真值反映了真实DGP的实际特征,即正偏度和过度峰度。利用这个伪真值,我们还计算了不同ABC过程的蒙特卡罗覆盖率,我们也在表3中显示了这一覆盖率。表3:接受/拒绝ABC(AR)、局部线性回归调整ABC(Reg)的后验总结,见Beaumont et al.(2002),我们提出的局部线性回归调整ABC(RegN)和基于神经网络的局部非线性回归调整(NN),见Blum a和Fran,cois(2010)。

57
mingdashike22 在职认证  发表于 2022-6-1 05:23:30
Mean是平均后验平均值,Std是平均后验标准差,Lent是95%可信集的平均长度,Cov是使用(21)中定义的伪真值计算的蒙特卡罗覆盖率,Q025和Q975是后验分位数的平均值(在蒙特卡罗复制中)2.5%和97.5%。a AR RegN Reg NN b AR RegN Reg NNMean 1.1190 1.1568 1.2060 1.1862 Mean 0.8961 1.0143 1.6342 1.668 5Std 0.6564 0.027 0.0031 0.1333 Std 0.7114 0.0104 0.0113 0.0994 Len 2.2517 0.0112 0.0125 0.4893 Len 2.5380 0.0414 0.04 39 0.3914Cov 1.0000 0.0180 0.014 0 0 0.5110 Cov 0.9990 0 0.1730 0 20 0.56 00Q025 0.0831 1.1509 1.19 93 0.9419 Q025 0.0478 0.9940 1.6119 1.5326Q975 2.3349 1.1621 1 1.21 18 1.4312 Q9752.5858 1.0354 1.6558 1.9240g AR RegN Reg NN k AR RegN Reg NNMean 4.7758 5.3310 0.8639 0.3707平均1.5321 2.1790 0.7973 0.388 9Std 2.9404 1.5 265 1.4632 0.7212 Std 1.4145 0.9426 0.7810 0.3866 Len 9.4511 6.1010 5.8798 2.9902 Len 5.1661 3.8949 3.28 41 1.5546Cov 0.8900 0.3380 0.632 0 0.6870 Cov 1.0000 0.5760 0.8420 0.80 60Q025 0.2484 2.4728-1.7755-0.9119 Q025 0.051 0.3648-0.6637-0.3487Q9759.6995 8.5738 4.10 43 2.0783 Q975 5.2171 4.2597 2.6204 1.2059分析表3中的结果,我们发现所有程序都对位置参数a给出了相对准确的点估计。然而,不同ABC程序中,其参数的蒙特卡罗覆盖率差异很大,这反映了局部回归调整方法的极小后验标准偏差。对于比例参数b,也有类似的情况。

58
能者818 在职认证  发表于 2022-6-1 05:23:33
也就是说,所有过程都给出了与伪真值b相差不大的点估计量*= 1.5然而,局部调整程序的后验标准差很小,导致严重的覆盖不足。对于参数g,不同的ABC程序具有非常不同的后验行为。最显著的特点是,虽然局部线性平差(Reg)和非线性平差(NN)的平均后验均值与伪真值相差不远,但g*= 0.41,两种手术均将大量后部肿块置于g<0。我们记得,trueDGP是这样的,即观测数据总是具有正偏度。控制g和k分布峰度的参数k的结果与参数g的结果相似。即,局部线性和非线性回归调整通常给出更接近k伪真值的点估计*≈ 0.23与其他ABC程序相比,其他方法在k<0时放置不可忽略的后质量。这种行为显然与观察到的数据不一致:k<0的值意味着观察到的da ta表现出比正常值小的峰度。正如主要论文推论2所示,这种行为是模型误判和局部回归调整性质的直接后果。

59
kedemingshi 在职认证  发表于 2022-6-1 05:23:36
本质上,通过分析这些程序中的2.5%和97.5%分位数可以看出这一点。模型错误,这些调整过程可被视为采用公认的图纸,其渐进地产生观测和模拟总结之间的最小距离,并根据不尊重这些图纸原始最优性的标准对其进行扰动。鉴于本例中局部回归调整的行为,以及正文中示例1的结果,我们建议研究人员在模型可能存在误判的情况下,以健康的怀疑态度对待局部回归调整ABC程序的输出。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-9 11:36