楼主: nandehutu2022
1666 41

[量化金融] 缺失数据重尾AR模型的参数估计 [推广有奖]

21
何人来此 在职认证  发表于 2022-6-10 18:50:55
为了参考,我们还给出了从完整数据集(ρ=0)得到的最大似然估计结果,该结果是使用[11]中的算法得到的。我们可以观察到,我们的方法即使在缺失数据百分比很高的情况下也能令人满意地执行,并且,随着样本大小的增加,缺失值的估计值m a tc h与完整数据的估计值之间也能保持一致。B、 对异常值的鲁棒性学生t的一个有用特征是对异常值的弹性,这不是高斯分布所共有的。在此,我们说明,学生的t AR模型可以提供创新输出下自回归系数的稳健估计。新息离群值是εt过程中的离群值,是AR时间序列中离群值的典型k ind[36],[3 7]。由于具有离群值的不完全高斯(1)时间序列的可表估计和预测结果。^И(Дtrue=0.5)平均预测误差Gaussian AR(1)0.5337 0.0121学生的t AR(1)0.4947 0.0110Kharin方法0.4210 0.0212 AR时间序列数据的时间依赖性,创新的结果不仅会影响当前观测yt,还会影响后续观测。图3给出了被四个创新输出者污染的阿高斯AR(1)时间序列的示例。当AR时间序列被异常值污染时,基于高斯AR模型的自回归系数的传统ML估计(相当于最小二乘拟合)将提供不可靠的估计。尽管对于完整的time序列,有许多关于离群值下自回归系数的稳健估计的工作,但遗憾的是,对不完整时间序列的稳健估计关注较少。据我们所知,只有Kharinand Voloshko考虑过缺失值的稳健估计[16]。在他们的论文中,他们假设φ已知且等于0。

22
nandehutu2022 在职认证  发表于 2022-6-10 18:50:58
为了与K harin的方法一致,在本次模拟中,我们还假设φtrueis kn own和φtrue=0,尽管我们的方法也可以应用于φtrueis未知的情况。我们让Дtrue=0.5和εti。i、 d。~ N(0,0.01)。请注意,创新遵循高斯分布。我们随机生成一个不完全高斯AR(1)时间序列,t=100个样本,缺失百分比ρ=0.1,并且它被四个更新异常值所包围。创新异常值的值设置为5,-5,5,-5,并且位置被随意选择。参见图3 f,了解不完整的污染tim e系列。高斯AR(1)模型、Student的t AR(1)模型和Kh arin的方法用于估计自回归系数。在获得估计值后,我们计算一步aheadprodictions^yt=^Иyt-1和预测错误(^yt- yt)堡垒∈ Coand t公司-1.∈ 报告中的异常值可以预测,这并不奇怪,所以我们在计算平均预测误差时忽略了它。表II显示了估计结果和提前一步的预测误差。很明显,基于Ga-ussian AR(1)的最大似然估计量受到异常值存在的显著影响,而Studen t\'st AR(1)模型对它们很稳健,因为异常值导致创新具有重尾分布,这可以通过Student t分布建模。Kharin的方法也不能很好地执行,因为这种方法是为令人上瘾的异常值和替代异常值而设计的,而不是针对创新异常值。C、 真实数据在这里,我们考虑了从2017年1月到2017年11月(不包括周和公共假期)260多个工作日的恒生指数回报率。图4显示了这些回报的分位数(QQ)图。与0 20 40 60 80 100的偏差-4.-2 0 2 Toutlier缺少值IG。3.

23
可人4 在职认证  发表于 2022-6-10 18:51:01
具有四个创新异常值的不完全AR(1)时间序列。-3.-2.-标准正态分位数采样分位数-0.015-0.01-0.005 0.005 0.01 0.015图。恒生指数收益率的分位数-分位数图显示它们是重尾的。红色直线表明,r形回旋鸟明显非澳式,尾巴很重。我们将260份回报分为两部分:估计数据(涉及前250份样本)和测试数据(涉及剩余的10份样本)。首先,我们将估计数据拟合到高斯AR(1)模型和学生的t AR(1)模型,并估计参数。然后利用基于估计值的一步预测方法对试验数据进行预测,并计算平均预测误差。接下来,我们将删除10个估计数据,并从这个不完整的数据集中估计高斯AR(1)模型和Studen t\'st AR(1)模型的参数。最后,我们还可以根据这些参数估计值进行预测并计算平均预测误差。结果汇总在表III中。

24
mingdashike22 在职认证  发表于 2022-6-10 18:51:04
我们得出以下结论:i)表III恒生指数收益率的估计和预测结果。平均预测误差假设高斯新息的完整数据7.548×10-4.-1.058 × 10-11.702 × 10-5+∞ 9.141 × 10-6假设高斯创新的不完整数据8.618×10-4.-1.253 × 10-11.665 × 10-5+∞ 9.455 × 10-6假设学生t创新的完整数据5.440×10-4.-9.580 × 10-26.524 × 10-62.622 8.836 × 10-6假设学生t创新的不完整数据5.538×10-4.-9.459 × 10-26.331 × 10-62.671 8.831 × 10-6对于这种重尾时间序列,Student的t AR(1)模型的性能优于GaussianAR(1)模型;ii)对于不完整Student的t AR(1)时间序列,提出的参数估计方法可以提供与完整数据结果相似的估计。七、结论本文考虑了具有缺失值的重尾AR模型的参数估计。我们已经制定了一个ML估计问题,并开发了一个有效的方法来获得基于随机EM的估计。由于我们案例中潜在数据的条件分布很复杂,我们提出了一个Gibbs抽样方案来从中提取实现。证明了该算法对平稳点的收敛性。仿真结果表明,所提出的app-roach算法能够从具有不同缺失值百分比的不完整时间序列中提供可靠的估计,并且对异常值具有鲁棒性。虽然由于空间的限制,本文只关注具有学生分布创新的单变量AR模型,但我们的方法可以推广到多变量AR模型和其他重尾分布创新。引理1和2A的附录A。

25
大多数88 在职认证  发表于 2022-6-10 18:51:07
τ| ym,yo的引理1条件分布的证明;θisp(τ| ym,yo;θ)=p(y,τ;θ)p(y;θ)∝ p(y,τ;θ)=TYt=2νντν-1tΓν√2πσexp-τt2σ(yt- φ- ^1yt-1)-ντt∝TYt=2τν-1试验-(年初至今)- φ- ^1yt-1)2σ+ν!τt!,(48)其中imp表示{τt}与p(τt | ym,yo;θ)相互独立∝ τν-1试验-(年初至今)- φ- ^1yt-1)2σ+ν!τt!。(49)将该表达式与ga-mma分布的pdf进行比较,我们得到τt | ym,yo;θfo允许伽玛分布:τt | ym,yo;θ~ γν+1,(yt- φ- ^1yt-1)/σ+ ν!.(50)B.引理2的证明根据高斯混合表示(11)和(12),给定τ和θ,εt服从高斯分布:εti。i、 d。~Nu,στt. 从方程(2)中,我们可以看到,给定τ和θ,yt的分布取决于前面的所有数据ft-1,仅取决于上一个样本-1: p(yt |τ,Ft-1.θ) =p(yt |τ,yt-1.θ) .(51)此外,Yt的分布取决于所有接收到的观测数据-1、τ和θ,仅在最近观察到的样品上dep结束:pyt |τ,Fot-1.θ=p(yt |τ,yt-1.θ) t=td+nd+2,td+1,对于d=0,1,D、 p(yt |τ,yt-nd公司-1.θ) t=td+nd+1,对于d=1,2。

26
nandehutu2022 在职认证  发表于 2022-6-10 18:51:10
,D.(52)第一种情况是指之前的样本-观察到1,而第二种情况是yt-1微笑。基于上述性质,我们得到p(ym |τ,yo;θ)=QTt=2p(yt |τ,Ft-1.θ) Qt∈警察yt |τ,Fot-1.θ(53a)=QTt=2p(yt |τ,yt-1.θ) QDd=0Qtd+1t=td+nd+2p(yt |τ,yt-1.θ) ×QDd=1p(ytd+nd+1 |τ,ytd;θ)(53b)=QDd=1Qtd+nd+1t=td+1p(yt |τ,yt-1.θ) QDd=1p(ytd+nd+1 |τ,ytd;θ)(53c)=DYd=1p(yd,ytd+nd+1 |τ,ytd;θ)p(ytd+nd+1 |τ,ytd;θ)(53d)=DYd=1p(yd |τ,ytd,ytd+nd+1;θ),(53e),其中方程(53a)和(53e)来自条件pdf的定义,方程(53b)为f rom(51)和(52)。方程(53e)表明,不同的缺失块{yd}相互独立,yd的条件分布仅取决于两个观察到的剩余样本yt和ytd+nd+1。为了获得缺失块体kp的pdf(yd |τ,ytd,ytd+nd+1;θ),我们首先分析缺失块体的接合点DF和接下来观察到的样本Ycd=年初至今,年初至今+nd+1T=[年初至今+1,年初至今+2,…,年初至今+nd+1]:p(ycd |τ,年初至今;θ)。给定τ、ytd和θ,从(2)中,我们得到ytd+i=Д+Дytd+i-1+εtd+i=Д+Д(Д+Дytd+i-2+εtd+i-1) +εtd+i=Д+Д+Дytd+i-2+Дεtd+i-1+εtd+i=i-1Xq=0ДqД+Дiytd+iXq=1Д(i-q) εtd+q,(54)对于i=1,2。,nd+1,这意味着ytd+ican可以表示为常数PI的和-1q=0ДqД+Дiytd和独立高斯随机变量εtd+1、εtd+2的线性组合。,εtd+i。

27
能者818 在职认证  发表于 2022-6-10 18:51:13
因此,我们可以得出ycd服从如下高斯分布:ycd |τ,ytd;θ ~ N(ucd,∑cd),(55),其中ucducd(i)的第i个分量=E[年初至今+i]=E“i-1Xq=0ДqД+Дiytd+iXq=1Д(i-q) εtd+q#=i-1Xq=0ДqД+Дiytd+iXq=1Д(i-q) E[εtd+q]=i-1Xq=0ДqД+Дiytd,(56),∑cd∑cd(i,j)=E的第i列和第j行中的成分t年初至今+一- ucd(i)年初至今+日本- ucd(j)=E“iXq=1Д(i-q) εtd+q!jXq=1Д(j-q) εtd+q#=iXq=1jXq=1Д(i+j-q-q) E[εtd+qεtd+q]=σmin(i,j)Xq=1Д(i+j-2q)τtd+q。(57)最后一个方程式如下fromE[εtd+qεtd+q]=(στtd+q,q=q;0,q6=q。回想一下,p(yd |τ,ytd,ytd+nd+1;θ)是p(yd,ytd+nd+1 |τ,ytd;θ)的条件pdfof。由于高斯分布的条件分布是高斯分布,我们可以得到thatyd |τ,ytd,ytd+nd+1;θ遵循高斯分布,如(28)。该条件分布的参数可以基于ud=ucd(1:nd)+∑cd(1:nd,nd+1)∑cd(nd+1,nd+1)计算年初至今+nd+1- ucd(钕+1),(58)和∑d=∑cd(1:nd,1:nd)-∑cd(1:nd,nd+1)∑cd(nd+1,1:nd)∑cd(nd+1,nd+1),(59),其中ucd(a:a)表示由ucd的a-th到a-th分量组成的子向量,∑cd(a:a,b:b)表示由∑cd的a-th行和b1-th到b列中的分量组成的子矩阵。将方程式(56)和(57)插入方程式(58)和(59),分别得出方程式(29)和(30)。附录B关于条件(M1)-(M5)和(SAEM2)-(SAEM3)的说明在本节中,我们将逐一确定列出的条件。观测数据Yo已知。我们假设yois有限。由于参数r spaceΘ是一个ν>2的大有界集,我们可以假设t |Д|<Д+,|Д|<Д+,σ>σ-,和ν-< ν<ν+,其中ν+、Д+、和ν+是非常大的正数,σ-是一个非常小的阳性数字-是一个非常小的正数,满足ν-≥ 我们首先证明条件s(M1)-(M5),然后证明条件(SAEM2)和(SAE M3)。A.

28
可人4 在职认证  发表于 2022-6-10 18:51:16
证明(M1)-(M5)proo f首先建立以下两个中间le mma。引理3。对于任何Yo和θ∈ Θ,p(yo;θ)=RRp(y,τ;θ)dymdτ=Rp(y;θ)dym<∞.引理4。对于任何yo,θ∈ Θ和1<t≤ TZZg(y,τ)p(y,τ;θ)dymdτ<∞, (60)其中g(y,τ)可以是τt,τt,yt,τtyt-1,τtyt,或-log(τt)引理3表明观测数据的可能性p(yo;θ)是有界的,Le mma 4表明g(y,τ)的期望是有界的。这些引理提供了建立(M1)-(M5)所需的关键成分,它们用于后续分析的图像是自扩展的。由于sp ACE的限制,我们在此不包括他们的公关。感兴趣的读者可以参考补充材料。(M1)对于条件(M1),基于(18),我们可以得到z Zks(yo,ym,τ)kp(ym,τ| yo;θ)dymdτ=RRks(yo,ym,τ)kp(yo,ym,τ;θ)dymdτp(yo;θ)≤p(yo;θ)TXt=2Z Z对数(τt)- τt+τtyt+τt+τtyt-1.+τtyt+τtytyt-1.+τtyt-1.p(yo,ym,τ;θ)dymdτ≤p(yo;θ)TXt=2Z Zτt- 对数(τt)+τtyt+τt+τtyt-1+τt+yt+τtyt+yt-1.+τt+yt-1.p(yo,ym,τ;θ)dymdτ<∞,(61)如果三个不等式来自等式中的三棱角,则平方xx的性质≤分别是x+x和引理4。(M2)根据(16)和(17)中ψ(θ)和φ(θ)的定义,它们的连续可微性可以在条件(M3)下得到充分验证(M3),(R)s(θ)=Z Zs(yo,ym,τ)p(ym,τ| yo;θ)dymdτ=Z Zs(yo,ym,τ)p(y,τ;θ)dymdτ=RRs(yo,ym,τ)p(y,τ;θ)θ)dymdτRRp(y,τ;θ)dymdτ。(62)由于Rp(y,τ;θ)dymdτ=p(yo;θ)>0且p(y,τ;θ)是连续可微的,这很容易从其定义(19)中检查出来,我们可以得到t(θ)是连续可微的。(M4)SinceRRp(y,τ;θ)dymdτ>0,且p(y,τ;θ)为7次可微,l(θ;yo)=logRRp(y,τ;θ)dymdτ是可微的7倍。

29
可人4 在职认证  发表于 2022-6-10 18:51:19
根据莱布尼兹积分规则,为了验证方程式(46),方程式(4)和方程式(6)适用于以下三种条件:1)RRp(y,τ;θ)dymdτ<∞,2)p(y,τ;θ)θ存在于所有θ∈ Θ,3)有一个可积函数g(y,τ),使得p(y,τ;θ)θ≤ g(y,τ)表示所有θ∈ Θ和几乎所有yandτ。由于引理3已经证明了第一个条件,而第二个条件可以很容易地从定义中验证,因此我们将重点放在第三个条件上。从方程(13)中,p(y,τ;θ)对ν的导数为p(y,τ;θ)φ=p(y,τ;θ)TXj=2τj(yj- φ- ^1yj-1)σ≤p(y,τ;θ)σTXj=2(|τjyj |+|Дτj |+|Дτjyj-1|)≤p(y,τ;θ*)(σ-)TXj=2τj+yj+Д+τj+Д+yj公司-1+τj= gИ(y,τ),(63),其中θ*= arg maxθ∈Θp(y,τ;θ)。

30
kedemingshi 在职认证  发表于 2022-6-10 18:51:22
第一个不等式来自三角形不等式,第二个不等式来自p(y,τ;θ*) ≥ p(y,τ;θ),|Д|<Д+,|Д|<Д+,σ>σ-, 以及正方形的性质。关于Д的导数为p(y,τ;θ)φ=p(y,τ;θ)TXj=2στjyj-1(yj- φ- ^1yj-1)≤p(y,τ;θ)σTXj=2|τjyjyj-1 |+|Дτjyj-1 |+|Дτjyj-1|≤p(y,τ;θ*)(σ-)TXj=2τjyj+yj-1.+φ+τj+yj-1.+ Д+τjyj-1.= gИ(y,τ),(64),其中第一个等式从三角形不等式开始,第二个不等式从|Д|<Д+,|Д|<Д+,σ>σ开始-, 以及正方形的性质。σ的导数为p(y,τ;θ)σ= p(y,τ;θ)TXj=2τj2σ(yj- φ- ^1yj-1)-2σ≤ p(y,τ;θ)TXj=2τj2σ(yj- φ- ^1yj-1)+2σ≤ p(y,τ;θ)TXj=2τj2σ2(yj- Д)+2Дyj-1.+2σ≤ p(y,τ;θ)TXj=2τj2σ4yj+4Д+2Дyj-1.+2σ≤ p(y,τ;θ*)TXj=2τj2(σ-)4yj+4φ++ 2.φ+yj公司-1.+2 (σ-)= gσ(y,τ),(65),其中第一个等式遵循三角形不等式,第二个和第三个不等式遵循平方(x)的性质- x)≤ 2.x+x, 最后一个不等式来自p(y,τ;θ*) ≥ p(y,τ;θ),|Д|<Д+,|Д|<Д+,σ>σ-.关于ν的导数是p(y,τ;θ)ν=p(y,τ;θ)TXj=21+日志ν- Ψν+ 对数(τj)- τj≤p(y,τ;θ)TXj=21+日志ν- Ψν+对数(τj)- τj≤ p(y,τ;θ*)TXj=2+日志ν--Ψν-+τj-对数(τj)= gν(y,τ),(66),其中ψ(·)是digamma函数。第一个不等式来源于tr-iangle不等式,第二个不等式来源于该对数ν-Ψν为正且严格递减≥ ν-[30].基于引理3和引理4,我们可以得到rrgД(y,τ,)dymdτ<∞,RRgД(y,τ)dymdτ<∞,RRgσ(y,τ)dymdτ<∞, andRRgν(y,τ)dymdτ<∞.条件(M4)已验证。(M5)该条件要求Q(θ,’s)的全局最大化子|θ(’s)的存在及其连续可微性。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-4 11:12