楼主: 可人4
886 20

[量化金融] 离散系统的零膨胀自回归条件持续时间模型 [推广有奖]

11
nandehutu2022 在职认证  发表于 2022-6-11 07:05:28
),持续时间是自然数(带零)。2.2零散分布零散分布是离散分布的扩展,允许零值概率高于原始分布给出的概率。在零值分布中,值由两个组件生成–一个组件仅生成零值,而另一个组件根据原始分布生成整数值(包括零值)。Lambert(1992)提出了零膨胀泊松模型,Greene(1994)对负二项分布使用了零膨胀模型。零负二项分布是一个离散分布,有三个参数:尺度参数u>0,色散参数α≥ 0和过零值概率π∈ [0,1)。变量XI遵循零负二项分布ifXi~ 0,概率π,Xi~ 概率为1的NB(u,α)- π.(3) 第一个过程仅生成零并对应于拆分交易,而第二个过程从负二项分布生成值并对应于常规交易。概率质量函数isP[Xi=0 |u,α,π]=π+(1- π)α-1α-1+ uα-1,P[Xi=Xi |u,α,π]=(1-π) Γ(xi+α)-1) Γ(xi+1)Γ(α-1)α-1α-1+ uα-1.uα-1+ uxi对于xi=1,2。(4) 期望值和方差isE【Xi】=u(1- π) ,var[Xi]=u(1- π)(1 + πu + αu).(5) 得分向量由以下公式得出(xi,u,α,π)=(π - 1)(αu + 1)-1.1 + π(αu + 1)α-1.- π-1α-2.ln(αu+1)-αu(αu + 1)-1.1.- π(π - 1)-1(αu + 1)α-1.-1.(αu + 1)α-1.- 1.1 + π(αu + 1)α-1.- π-1.(6) 对于xi=0和(xi,u,α,π)=u-1(xi)- u)(αu + 1)-1α-2.ln(αu+1)+α(xi- u)(αu + 1)-1+ ψ(α-1) - ψ(xi+α)-1)(π - 1)-1.(7) 对于xi=1,2。

12
大多数88 在职认证  发表于 2022-6-11 07:05:31
..2.3广义自回归得分动态广义自回归得分(GAS)模型(Creal et al.,2013),也称为动态条件得分模型(Harvey,2013),通过条件观测密度(或离散分布情况下的条件观测概率质量函数)的自回归项和标度分数,捕捉时变参数的动力学▄fi=(▄fi,1,…,▄fi,k)。随时间变化的参数▄f在递归▄fi+1=C+B▄fi+AS(▄fi)之后(xi,fi),(8)其中C=(C,…,ck)是常数参数,B=diag(B,…,bk)是自回归参数,A=diag(A,…,ak)是分数参数,S(▄fi)是分数的标度函数,以及(xi,~fi)是分数。在Creal等人(2013)的原始论文中,作者指出,通过选择标度函数S(~fi),GAS模型允许在如何使用分数更新~fi方面具有额外的灵活性。气体文献中常用的标度函数基于Fisher信息矩阵。我们探讨了这个选项,但是,我们发现它不太适合负二项分布的气体模型,因为参数α的Fisher信息不具有闭合形式。因此,Fisher信息的近似带来了过度的计算复杂性,导致优化过程过于耗时。为了保持我们的模型简单,从现在开始,我们避免缩放,这也是气体文献中广泛使用的选项。此外,Hol'y(2020)表明,基于不同标度函数的模型性能差异可以忽略不计。时变参数的长期平均值和无条件值为▄f=(I- (B)-1C。假设参数fiin(8)是无界的。然而,有些分布需要有界参数(例如方差大于零)。

13
可人4 在职认证  发表于 2022-6-11 07:05:34
GAS框架中的标准解决方案是使用无界参数化fi=H(fi),它遵循GAS递归而不是原始参数化fi,即fi+1=c+bfi+as(xi,fi),(9)其中c是常数参数,b是自回归参数,a是分数参数,s(xi,fi)是重新参数化分数。重新参数化得分等于tos(xi,fi)=H-1(▄fi)(xi,fi),(10)式中˙H(fi)=H(▄fi)/~fi是H(~fi)的导数。天然气规格包括许多常用的计量经济模型。例如,具有正态分布、Fisher信息标度和时变方差的倒数的GAS模型产生GARCH模型,而具有指数分布、Fisher信息标度和时变期望值的倒数的GAS模型产生ACD模型(Creal et al.,2013)。GAS框架也可用于离散模型。Koopmanet al.(2018)使用基于Skellam分布的离散copulas进行高频股价变化。Koopman和Lit(2019)使用双变量泊松分布计算了多个足球比赛的进球数,并使用Skellam分布计算了得分差异。Gorgi(2018)将泊松分布和负二项分布用于有效行为报告。Hol'yandTomanová(2021)使用混合双泊松分布来建模高频价格中的价格聚类。2.4零膨胀自回归条件持续时间模型我们考虑一种模型,其中观测值遵循零膨胀负二项分布,时变尺度参数ui、时变离散参数αi和时变膨胀参数π在(4)中有规定。

14
nandehutu2022 在职认证  发表于 2022-6-11 07:05:37
我们对尺度和分散参数使用指数链接的无界参数化,对扩散参数使用logistic变换,即fi=(ln(ui),ln(αi),ln(πi/(1-πi)))。假设参数f遵循(9)中的递归,其中零负二项分布的得分由s(xi,fi)给出=ui(πi- 1) (αiui+1)-1.1+πi(αiui+1)α-1i- πi-1α-1iln(αiui+1)-αiui(αiui+1)-1.1.- πi(πi- 1)-1(αiui+1)α-1i-1πi(1- πi)(αiui+1)α-1i- 1.1+πi(αiui+1)α-1i- πi-1.(11) 对于xi=0 ands(xi,fi)=(xi)- ui)(αiui+1)-1α-1iln(αiui+1)+αi(xi- ui)(αiui+1)-1+ ψ(α-1i)- ψ(xi+α)-1i)-πi(12) 对于xi=1,2。。3估计和渐近性质在本节中,我们将重点讨论具有时变尺度参数ui和静态色散α和波动π参数的模型。因此,我们设置fi=ln(ui)和θ=(α,π,c,b,a)。(11)和(12)中的分数为(0,fi)=(π- 1) exp(fi)(αexp(fi)+1)1+π(αexp(fi)+1)α-1.- π,s(xi,fi)=xi- exp(fi)αexp(fi)+1对于xi=1,2。(13) 对于具有(9)和(13)中定义的动力学的气体模型,我们建立了分数滤波器的可逆性,并验证了模型参数最大似然的一致性和渐近正态性的充分条件。静态参数向量θ用极大似然θn法估计∈ arg maxθ∈ΘLn(θ),(14),其中^Ln(θ)表示从n个观测值序列x,…,获得的对数似然函数,xn,取决于滤波后的时变参数^f(θ)。。。,^fn(θ)。由于我们处理的是需要初始化值^f的观测驱动滤波器,因此我们在这里对^Ln(θ)和Ln(θ)进行了重要区分。第一个对数可能性是过滤参数^f(θ)的函数。。。,^fn(θ)初始化为给定值^f。

15
何人来此 在职认证  发表于 2022-6-11 07:05:40
第二种可能性是滤波参数f(θ)的函数。。。,fn(θ)初始化为真实的未观测值f。当然,由于fis未观测到,我们通常得到^f6=f。在实践中,样本对数似然由^Ln(θ)=nnXi=1^\'i(xi,θ)=nnXi=1ln P[xi=xi | fi(θ),θ]给出。(15) 在我们的例子中,对数可能性基于零负二项分布n P【Xi=0 | fi(θ),θ】=lnπ+(1- π)α-1α-1+uiα-1.ln P[Xi=Xi | fi(θ),θ]=ln(1-π) +lnΓ(xi+α)-1) Γ(xi+1)Γ(α-1) +αlnα-1α-1+经验(^fi)!+xilnexp(^fi)α-1+经验(^fi)!对于xi=1,2。(16) 下面,我们证明了ZIACD模型的最大似然估计是一致的和渐近正态的。证明遵循Blaskes et al.(2014)中规定的结构,但我们重点关注离散数据{xi}i的特殊情况∈n具有概率质量函数P[Xi=Xi | fi(θ),θ]。相反,Blaskes等人(2014年)用平滑的概率密度函数处理连续数据的一般情况。3.1过滤器可逆性过滤器可逆性对于观测驱动的时变参数模型中的统计推断至关重要;参见Straumann和Mikosch(2006)、Wintenberger(2013)和Blaskes等人(2014)。滤波器{fi(θ)}i∈Ninitialized at some point^f(在某个点上初始化)∈ 如果^fi(θ)以指数速度收敛到唯一极限严格平稳遍历序列{fi(θ)}i,则称R是可逆的∈Z、 |^fi(θ)-fi(θ)| eas→ 0作为i→ ∞.设Ln(θ)表示对数似然,它取决于极限时变参数f(θ)。。。,fn(θ)Ln(θ)=nnXi=1`i(xi,θ)=nnXi=1ln P[xi=xi | fi(θ),θ],并让L∞表示极限对数似然函数∞(θ) =E[`i(θ)]=E[ln P[Xi=Xi | fi(θ),θ]]。命题1引用Blaskes等人(2014)的结果,以确定(9)和(13)中所述的零负二项分布的核心过滤器的可逆性。

16
能者818 在职认证  发表于 2022-6-11 07:05:43
技术附录A中的证明是Blaskes等人(2014)的结果在我们当前模型中的应用。命题1(过滤器可逆性)。考虑(9)和(13)中零负二项分布的分数驱动模型。让观测数据{xi}i∈Nbe严格平稳遍历,对数矩E[ln+| xi |]<∞, 设Θ为紧参数空间,定义为Θ=[α-, α+] · [π-, π+]·[c-, c+]·[b-, b+]·[a-, a+]并满足以下限制条件a+(π-- 1)2α-+a+|π-- 1|(α-)+ b+<1,Exi>0自然对数a+(α+xi+1)4α-+ b类+< 0、然后滤波器{fi(θ)}i∈定义为^fi+1=c+b^fi+as(xi,^fi)是可逆的,在θ中一致∈ Θ.3.2一致性Proposition 1为我们提供了表征ML估计量渐近行为的有效元素。本节使用Blaskes et al.(2014)中关于分数模型的现有理论来验证ML估计量^θ的强一致性,因为样本量n偏离了精确性。为了完备性,引理1陈述了ML估计量一致性的条件。技术附录A中提供了证明草图,并提供了适当的参考资料。该理论自然使用命题1中建立的零负指数评分模型的可逆性属性。继Blaskes等人(2014年)之后,该定理考虑到了潜在的模型误判。引理1(ML估计量的一致性)。让命题1的条件成立。进一步假设观测数据有一个有界矩E【xi】<∞, 设θ为极限对数似然函数E的唯一极大值[`i(xi,·)]:Θ→ 参数空间Θ上的R。那么^θnas→ θ∈ Θas n→ ∞.3.3渐近正态性最后,我们阐明了√^θ的n-相合率与标准估计量的渐近正态性√n(^θn)- θ) 作为n→ ∞, 当模型规格明确时。

17
能者818 在职认证  发表于 2022-6-11 07:05:46
为了完备性,引理2总结了渐近正态性的标准条件。技术附录A中给出了证明草图,我们参考Blaskes et al.(2014)了解更多详细信息。引理2(ML估计的渐近正态性)。让引理1的条件成立。假设观测数据有四个有界矩E | xi |<∞, 让真参数位于参数空间的内部,即θ∈ int(Θ)。最后,让Blaskes et al.(2014)定理4.16中规定的进一步正则性条件成立。那么ML估计量是渐近高斯的√n(^θn)- θ) d→ N(0,I(θ)-1) 作为n→ ∞,式中I(θ)-1取消逆Fisher信息矩阵。表3:2021 6月和7月贸易持续时间的描述性统计。泛欧交易所纽约证券交易所纳斯达克统计样本INGA ASML MCD IBM CSCO MSFT%=6月0日64.11 67.19 43.01 47.97 53.73 49.05 7月57.78 65.66 46.01 48.75 54.14 48.93%<0.01 6月73.70 76.30 56.98 61.63 66.86 63 7月67.52 74.53 59.78 63.01 67.11 63.93%<0.1 6月77.53 79.77 65.02 68.81 74.82 77.81 7月71.86 78.50 67.13 74.48 79.20%<6月1日82.31 84.73 82.91 85.72 91.37 98.57 7月78.37 85.11 84.59 88.7590.72 99.05平均6月1日56 1.19 0.58 0.47 0.26 0.10 7月1日72 0.91 0.52 0.37 0.29 0.08差异6月27日85 18.69 1.90 1.43 0.54 0.05 7月26日10.31 1.72 1.02 0.63 0.04标准。6月5日开发4.32 1.38 1.19 0.73 0.23 7月5日3.21 1.31 1.01 0.79 0.2095%数量6月9日94 7.50 3.25 2.70 1.60 0.54 7月10日48 5.66 2.96 2.14 1.73 0.46Obs。每分钟6月38日50.50 103.55 128.53 227.47 622.69 7月34日88 66.00 115.11 163.22 210.39 723.174实证研究4.1数据概述在我们的实证研究中,我们分析了从汤森路透Eikon提取的交易数据。Eikon提供实时市场数据访问,还包含历史日内交易。数据取自2021 6月至7月。

18
可人4 在职认证  发表于 2022-6-11 07:05:49
我们分析了在泛欧交易所上市的6只股票:ING Groep(INGA)和ASML Holding(ASML);在纽约证券交易所上市的麦当劳公司(MCD)和国际商业机器公司(IBM);在纳斯达克上市的思科系统公司(CSCO)和微软公司(MSFT)。我们使用以下步骤清理数据。首先,我们删除时间在主要交易时间和交易日之外的观察值。其次,对于泛欧交易所股票,我们删除了所有时间戳等于09:00:00至09:00:30之间的第一个时间戳的观察结果。原因是开盘取消交叉(由上午拍卖产生)随机发生在09:00:00至09:00:30之间。第三,我们将时间戳四舍五入到正确的精度(即毫秒),以确定错误的流量表示。已清理数据的统计特征如表3所示。在纳斯达克上市的两支分析股票属于流动性最强的股票,而在Euronextre上市的股票则是我们数据集中流动性最低的股票。2021 6月,精确的零持续时间范围从43.01%(MCD)到67.19%(ASML),低于1秒的持续时间占数据集的98.57%(MSFT)。有关进一步的描述性统计,请参见表3。对于所有分析的股票,我们观察到排序的唯一持续时间值为:0、0.000999927520751953、0.0010001659331050、0.001999850410391、0.00200009346008301。

19
大多数88 在职认证  发表于 2022-6-11 07:05:52
汤森路透(Thomson Reuters)的数据被精确到一毫秒,这种奇怪的行为是由一个与海面表示相关的问题引起的,可以通过四舍五入轻松解决。4.2在样本绩效中,我们使用拟议的ZIACD模型,该模型基于零膨胀负二项分布,具有时变尺度、离散度和零膨胀参数,以使用2021 6月的数据将观测持续时间四舍五入至百分之一秒。估计系数见表4。所有系数在任何合理水平上都是显著的,由于样本量从431463(INGA)到5342667(MSFT)不等,其标准偏差都是虚拟的。因此,我们仅报告估计值。表3还报告了每分钟的观察次数。如预期的那样,控制a分影响的系数对所有三个参数和所有六支股票都是积极的。这意味着分数用作校正项,用于调整观测值的时变参数。对于所有三个参数和所有六只股票,自回归系数b也是正的,并且相当高。在尺度参数的情况下,它非常接近于表示时间序列的高持续性的一个信号。表5报告了标度、离散度和零膨胀参数的平均值。请注意,平均比例参数(调整为秒)远高于表3中报告的样本平均值,因为我们的模型能够分离出归属于拆分交易的零,而拆分交易随后不会影响比例参数。平均而言,53.27%(MCD)至74.88%(ASML)的所有持续时间都是由拆分交易产生的过多零,具体取决于库存。这对应于在91.81%(MSFT)和98.13%(ASML)之间的过量零与所有零的比率。

20
大多数88 在职认证  发表于 2022-6-11 07:05:55
换句话说,零持续时间的1.87%(ASML)到8.19%(MSFT)之间是由不相关的事务生成的,不应从数据中丢弃这些事务。表5还评估了ZIACD模型的fit。平均绝对误差在0.11s(MSFT)和2.50 s(INGA)之间,而均方根误差在0.21(MSFT)和5.22(INGA)之间。与预测值ui(1)相比,这些值相当高- πi),其平均值范围为0.09秒(MSFT)至1.58秒(INGA)。这是因为预测值不能很好地代表整个分布,因为平均而言,所有值的53.27%(MCD)和74.88%(ASML)完全为零,而其余值的预期值在0.22秒(MSFT)和5.68秒(INGA)之间。因此,更适合基于整个分布评估模型的fit。我们关注模型给出的零概率。表5报告了当观测值确实为零且观测值为正值时,模型给出的零值平均概率。对于INGA和ASML股票,这两种概率之间的差异小于1%,表明零通货膨胀参数的动态效益有限。对于交易量较大的股票,差异在5.78%(MCD)和9.58%(CSCO)之间,表明零通货膨胀动态具有一定的预测能力。图3通过比较ZIACD模型给出的平均条件概率与无条件经验分布,更详细地研究了模型的fit。MCD库存在0.01秒时的最大偏差为-0.68%。该偏差相当小,但揭示了非对称误差,因为所有股票的持续时间为0.01的概率都被低估了。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-7 17:02