楼主: 何人来此
1279 42

[量化金融] 多重分形扩散熵分析:最优的网格宽度 [推广有奖]

21
mingdashike22 在职认证  发表于 2022-5-5 11:04:42
在直方图抽样的情况下,预期的R|enyi信息发散ehhdq(p | | p)i=q- 1EH“lnZRdx^p1-q(x)pq(x)#,(29)表示信息的平均损失。符号EH[…]表示相对于直方图集合^p(x)的集合平均值。不幸的是,使用度量(28)会带来一些与RE的非线性结构相关的技术难题。这可以通过采用其他与R’enyi信息分歧密切相关但在计算上更容易处理的措施来避免。其中,我们发现平方L度量最适合我们的目的。后者量化了基本PDF和直方图askp之间的距离- ^pkL=ZRdxh(p(x)- ^p(x))i.(30)正如我们将在以下小节中看到的那样,该度量具有许多理想的性质。theR’enyi信息散度与L-测度之间的关系如下:使用Jensen不等式对对数1-Z≤ ln z≤ Z- 1,(31)(对任何z>0有效),我们得到| Dq(p |^p)|≤cq | q- 1 | ZRdx | pq(x)- ^pq(x)|,(32)式中cq=max1,ZRdx^p1-q(x)pq(x)!-1.. (33)式(32)是香农信息论中已知的Csisz’ar–Kulback不等式[33]的q-推广。请注意,对于q≥ 我们有cq=1。这是因为对于q≥ 1.我们可以写下rdx^p1-q(x)pq(x)=Xkh^p1-q(ξk)pq(ξk)=Xk^p1-qkpqk=Xk^pkpk^pk!Q≥Xkpkq=1,(34)P.Jizba和J.Korbel/Physica A 00(2018)1–22 11其中综合概率定义为aspk=Z(k+1)hkhdx P(x)=hp(ξk),^pk=Z(k+1)hkhdx^P(x)=h^P(ξk),(35),其中ξk表示区间[kh,(k+1)h]中的一点。(34)中的最后一个不等式是由Jensen的凸函数不等式得出的。q的情况∈ [0,1]不那么琐碎,因为ezrdx^p1-q(x)pq(x)<1,(36)由于pk/^pkQ

22
mingdashike22 在职认证  发表于 2022-5-5 11:04:46
使用ZRDX^p1可以发现CQ的简单(但不是非常严格)多数-q(x)pq(x)=Xk^p1-qkpqk≥Xk^p1-qkpk≥ min(^p1)-qi)=[min(^pi)]1-q、 (37)因此cq≤ [min(^pi)]q-1.最后,从前面的表达式很容易看出dq(p | | p)≤cq(q)- 1) ZRdx | pq(x)- ^pq(x)|!≤cq(q)- 1) ZRdx(^pq(x)- pq(x)),(38),其中第二个不等式来自H¨older不等式[34]。因此,我们可以通过L距离估计预期的R’enyi信息散度,因为[Dq(p | | p)]≤cq(q)- 1) EH“ZRdx[(pq(x)- ^pq(x))]#≡ CqZRdx EH[(pq(x)- ^pq(x))]。(39)使用预期L距离平方的一个重要优势,即EHkp- ^pkL=ZRdx-EHh(pq(x)- ^p(x))i,(40)存在积分与期望值EH互换的可能性。在这种情况下,当期望值在积分之前,我们必须计算所有频率上的期望值{vk}nBk=1,这样vk∈ {1,…,N}和pnbk=1vk=N。在交换积分和EH后,系综平均仅在局部作用于^p,即仅在一个特定频率vk上计算期望值,其中χk(x)=1。这将大大简化计算。这就是为什么在实际计算中更喜欢L-范数的主要原因。让我们注意到,在计算过程中,我们也使用了L-范数(见公式(32))。事实上,一些作者使用L-范数来测量直方图和PDF之间的距离(例如,参考文献[35])。在下文中,我们将坚持均方距离,主要是因为它的计算优势——众所周知,L-范数比L-范数更容易处理[36]。当然,不同的措施通常会导致不同的结果,从前面的讨论来看,其他措施可能更方便使用。尽管如此,参考文献中仍有讨论。

23
mingdashike22 在职认证  发表于 2022-5-5 11:04:51
[35,36,37,38]意味着,在直方图可以被视为一类单参数的阶跃函数的情况下,我们可以“合理地”很好地假设,从不同的度量中获得的最佳仓位宽度在它们之间不会有显著差异。这也是R’enyi散度的情况,即土地平方L-测度,其中L-测度实际上是最方便的。4.3. 如果有必要单独估计每个q的箱子宽度,或者仅仅估计一个“参考”q的箱子宽度(例如,对于q=1)是否不够简单,然后对所有其他q情况使用这样的ahistogram,那么箱子宽度对qA的依赖性自然会出现问题。现在,我们将简要说明引入q相关仓宽的必要性。接下来的部分将进行更深入的讨论。让我们从p(x)中抽取一个序列{x,…,xN}。让我们也从数据中估算出一个柱状图^p,其宽度为h,这使得^p在所有p中都是最优的。Jizba和J.Korbel/Physica A 00(2018)1–22 12可以通过改变h值从采样数据{xi}Ni=1中获得的直方图。为了进一步方便,我们(x) =p(x)- ^p(x)。等式(40)中出现的p(x)和^p(x)的q次方之间的平方L距离可以进一步方便地重写为kpq- ^pqkL=ZRdx(pq(x)- ^pq(x))=ZRdxpq(x)-hqnBXi=1^pqiχi(x)=Zxmin-∞dx p2q(x)+nBXi=1ZIidxpq(x)-“^pih#q!+Z∞xmaxdx p2q(x)。(41)假设错误(x) 对于每一个非常小的x,我们可以近似pq(x)asp(x)q=“^pih#q+q!”^pih#q-1.(x) +O(十), (42)因此NbXi=1ZIidxpq(x)-“^pih#q!O()≈ qnBXi=1“^pih#2(q-1)我, (43)在哪里我≡里克斯((x) )。表示第二季度≡Zxmin-∞dx p2q(x)和2qnB+1≡Z∞xmaxdx p2q(x),(44)L距离的总平方可以表示为kpq- ^pqkL≈ 2q+qnBXi=1“^pih#2(q-1)我+ 2qnB+1≡ 2q+Sq+2qnB+1。

24
mingdashike22 在职认证  发表于 2022-5-5 11:04:55
(45)在下文中,我们将只讨论中间和Sq。这是因为Sq仅取决于直方图的选择,因此取决于h的值,而2qand2qnB+1更多地依赖于实际的底层PDF。我们应该注意到,随着N的增加,xmin和xmax的值越来越接近p(x)的支撑边界。因此,对于足够大的N,外部误差可以忽略,总的L误差只能由Sq表示。根据q:q<0的值,对Sq的讨论可以分为三种不同的情况:对于q的负值,和Sq强调了对于概率极小的分布^pi特别明显的误差。这可以通过较小的料仓宽度进行部分补偿。然而,在极端分布的情况下,很难确定估计的概率只是一个不适当的异常值,还是系统中存在极端事件的迹象。这个错误通常越明显,q越负。因此,负q的RE估计非常敏感(事实上,在这种情况下,RE是不可靠的信息度量[22]),许多作者仅对正q的RE进行评估。0<q<1:对于这些值,指数q-1大于-1.尽管来自小概率的误差更加明显,但误差是有界的,因为^pqi≤ 1代表q∈ (0,1),因此错误不像第一种情况那样严重。q>1:在这种情况下,误差减小了吗,因为因子^p2(q-1) iSq以指数方式将误差抑制到2q。pre-factor qd增长不快,因此在这种情况下误差减小。反对这一镇压2(1)-q) ,这增加了小h的误差。

25
大多数88 在职认证  发表于 2022-5-5 11:04:58
因此,在这种情况下,最好不要过多地夸大历史记录。从上述情况来看,局部平方误差(^p(x)的最小化也是显而易见的- p(x)),或积分平方误差(^p(x)- p(x))dx不一定使(^pq(x)的误差最小化- pq(x))。这是因为我们必须创建具有不同(q依赖)仓位宽度的直方图,这通常不会最小化直方图^p(x)和基础PDF p(x)之间的距离。P.Jizba和J.Korbel/Physica A 00(2018)1-22134.4。直方图二值的最佳宽度如上所述,从基础分布中正确形成直方图是重新估计的关键步骤。因此,关键问题是找到最佳的料仓宽度h*使R’enyi信息误差最小化的Q。(29)(或更好的均方L距离(40)),因此它提供了最小偏差的经验值。文献中有几种方法可以很好地应用于我们的数学框架中,来选择最佳的垃圾箱宽度。在这方面,我们可以提到,例如,Sturges规则[39],它将直方图的二进制数估计为nB=1+logN,这是由二项分布的直方图驱动的。这条规则在可视化数据时非常有用,但在PDF近似情况下,可以找到更有效的处方。沿着这些思路,特别适合的是经典的均方误差(MSE)方法(参见参考文献[40]),该方法允许根据之前讨论的均方L距离,量化基本PDF的^pq(x)和q次方之间的差异。这就引出了解决问题的任务∈(0,∞)ZRdx EHh(pq(x)- ^pq(x))i=minh∈(0,∞)nBXk=1Zχkdx Eνkpq(x)-νqkhqNq.

26
何人来此 在职认证  发表于 2022-5-5 11:05:03
(46)表达式(46)意味着我们最小化基本PDF pq(x)和其直方图(或简单的q-直方图)的q次方^pq(x)之间的综合预期局部偏差。我们首先计算EH[(pq(x)- ^pq(x))](为了简洁起见,我们省略了下标H),它可以方便地重写为asE[(^pq(x)- pq(x))]=E[(^pq(x)- E[^pq(x)]]+Eh(E[^pq(x)]- pq(x))i=Var(^pq(x))+偏差(^pq(x)). (47)右侧的第一项表示估计量的局部方差,第二项表示直方图的平方局部偏差,即偏差(^pq(x))=e[e[^pq(x)]- pq(x)]。式(47)表示qhistogram与基本PDF的q次方的局部偏差,因此从估计理论的角度来看,^pq(x)充当pq(x)的激励因子。为了进一步计算Var(^pq(x)),我们从公式(27)中发现,它对应于数量^pq(x)=vqk/Nqhq的方差计算,其中k标记了χk(x)=1的箱子。自然地,νk是二元分布的(如第4.1节所述),即νk~ B(N,pk),其中pki是适应于第k个bin的综合基础概率。因此,Var(^pq(x))=VarνqkNqhq=N2qh2qE[ν2qk]- E[(νk)q]. (48)这导致计算二项分布的分数矩,这通常是一项棘手的任务,除非ESSQ是自然的。事实上,当我们有足够的统计数据时,CLT意味着(参见参考文献[41,42])二项分布可以用正态分布近似为B(N,p)~ N(np,np(1- p) )。在这种情况下,我们得到[νqk]≈ZRdz | z | q2πN pk(1- exp)pk-(z)- (N pk)2N pk(1- pk)!。

27
大多数88 在职认证  发表于 2022-5-5 11:05:06
(49)力矩E[zq]被绝对力矩E[|z | q]取代,因为后者是真实值,而前者可能不是。一个积分可以用封闭的形式完成,命名为e[νqk]≈√π(2N)pk(1- pk)q/2Γ1+q!经验-npk2(1)- pk)!F1+q,;N蛋白激酶2(1)- pk)!,(50)其中f(α,β;z)是一个反超几何函数[43]定义的asF(α,β;z)=1+αβ·1!z+α(α+1)β(β+1)2!z+=∞Xj=0(α)j(βj)j!zj。(51)符号(α)k=α(α+1)。(α+k)是波克哈默符号[43]。根据参考文献[44],反超几何函数可以是足够大的z渐近展开asF(α,β;z)=Γ(β)Γ(α)ezz-(β-α)1 + (β - α)(1 - α) z-1+O(z)-2). (52)P.Jizba和J.Korbel/Physica A 00(2018)1-22 14将其重新插入等式(50)中,我们得到[νqk]=Nqpqk1+q(q)- 1)(1 - pk)N pk+O(N-2)!. (53)因此,N中的前导顺序产生局部方差Var(^pq(x))=N2qh2qN2qp2qk“q1”- pkN pk+O(N-2) #=qp2q-1k(1)- pk)h2qN+O(N-2) ≤qp2q-1kh2qN+O(N-2) . (54)类似地,等式(47)中的偏差可以用公式bias(^pq(x))=E[νqk]Nqhq来表示- pq(x)=pkhQ- pq(x)+O(N)-1) . (55)当我们想要计算直方图中所有点的总误差时,我们应该对所有局部误差进行积分,得到平均积分平方误差(MISE),它等于toMISE(^pq)≡ZRVar(^pq(x))dx+ZR偏差(^pq(x))dx。(56)因为最终只有N中的前导项是相关的,我们可以考虑formZRVar(^pq(x))dx中的综合方差=∞Xk=-∞齐克瓦尔(^pq(x))dx≈nB+1Xk=0qp2q-1kh2q-1N,(57)通过进一步应用pk的中值定理,即pk=ZIkp(x)dx=hp(ξk),(58)我们得到了thatZRVar(^pq(x))dx≈∞Xk=-∞qp2q-1kh2q-1N=qNh∞Xk=-∞p2q-1(ξk)h≈qNhZRp2q-1(x)dx。(59)积分平方偏差的前导N行为可如下获得。

28
kedemingshi 在职认证  发表于 2022-5-5 11:05:09
我们首先将积分平方偏差写为第k个bin上的积分平方偏差之和,即ZR偏差(^pq(x))dx=∞Xk=-∞齐克偏差(^pq(x))dx。(60)为了继续,让我们(在不失去普遍性的情况下)看看一个介于0和h之间的箱子。我们近似地估计相应的概率p[0,h]≡Rhp(t)dt asp[0,h]=Zhp(t)dt=Zhp(x)+(t- x) dpdx(x)+。!dt=hp(x)+hh- 十、dp(x)dx+O(h)。(61)我们注意到,因为x∈ (0,h),第二项为O(h)阶,我们可以写出p[0,h]aspq[0,h]=hqpq(x)+qhq的q次方-1pq-1(x)hh- 十、dpdx(x)+O(hq+2)。(62)因此,该箱子对h中的前导顺序的偏差等于ZHH- 十、qdpdx(x)pq-1(x)!dx=Zh“h- 十、dpqdx(x)#dx=dpqdx(ξ)!Zhh- 十、dx=hdpqdx(ξ)!。(63)P.Jizba和J.Korbel/Physica A 00(2018)1–22 15其他箱子的偏差可以用同样的方式计算,因此最终我们可以编写偏差(^pq(x))dx≈H∞Xk=-∞dpqdx(ξk)!H≈hZRdpqdx(x)!dx。(64)结合式(59)和式(64),我们得到渐近(或前导阶;表示为“l.o.”)平均积分平方误差(AMISE)等于(^pq)l.o。≡ EH“ZR(^pq(x)- pq(x))dx#=qNhZRp2q-1(x)dx+hZRdpq(x)dx!dx。(65)在极限q内→ 1我们恢复了文献[36]的经典结果。请注意,当h增大时,偏差增大,而当h增大时,相关性减小,也就是说,我们必须在偏差和方差之间找到折衷点,以便能够指定最佳h。在h中最小化上述AMISE函数可以得到最佳h*秦国*q=r6qNNq,(66),其中NqdenotesNq=RRp2q-1(x)dxRR(dpq(x)/dx)dx。(67)通过与Scott[36]的类比,我们可以假设基础PDF是正态分布N(u,σ)。在这种情况下,人们可以为之写作=√πσpq(2q)- 1) ,(68)给出了误差(^pq)=q(2π)1-q(σ)1-qNhp2q- 1+h√问题2-(1+q)π-(1/2+q)σ-(1+2q),(69)和最佳料仓宽度h*使灰烬工厂化*q=σN-1/3q√πq1/2p2q- 1=h*ρq。

29
nandehutu2022 在职认证  发表于 2022-5-5 11:05:13
(70)这里ρq=q1/2/p2q- 1和h*是q=1的最佳仓位宽度(对应于组织形态学的经典结果;参见参考文献[36,38])。注意,根据等式(65),如果h,直方图^pq在均方上收敛到pq(x)*Q→ 0和Nh*Q≈ N2/3→ +∞. 当我们可以用越来越小的最佳仓位宽度进行越来越多的观测时,就可以实现这一点,但最佳仓位宽度不应该随着N的增加而减少得太快,也就是说,减少应该表现为h*Q≈ N-1/3.在实际估计中,理论标准偏差通常被经验标准偏差所取代,这给出了通过斯科特规则获得的箱宽规则,其形式为^hS cq=3.5^σN-1/3ρq.(71)这里^σ是序列的估计标准偏差。此外,参考文献[45]中的Freedman和Diaconis(FD)提出了更稳健的规则,其中因子3.5^σ替换为2 IQR。缩写IQR代表四分位范围;IQR=x0。75- x0。25.不幸的是,这个估计并不准确,因为N(u,σ)= 2.√2erfc(-1)(1/2)σ ≈ 1.349σ,(72)P.Jizba和J.Korbel/Physica A 00(2018)1-22161.52.02.5图3。从左起:a)AMISE的形状(h,q=1)=h+h(σ和N被设置为使前因子等于1)作为h的函数。我们观察到最佳值h*= 61/3.= 1.817 . b) ρqa的曲线图是q的函数。对于大的q,它是q1/3,在值q=1/2附近,它急剧发散。a) b)AMISE(h)ρqhq(函数erfc)(-1) (z)是逆互补误差函数[43])。与最初的FD理论相反,在我们的例子中,我们需要更多地关注直方图的过度拟合,因为乘法常数ρqis现在强调了小q和大q。事实上,我们在图3 b)中显示了函数ρq的形状,对于大q值,函数ρq的形状为ρq~ q1/3,但对于接近q=1/2的值,其增长速度非常快,达到单位。

30
能者818 在职认证  发表于 2022-5-5 11:05:16
当我们更精确地用IQR替换^σ时,得到的箱子宽度规则^hfdqa的形式为^hFDq=2.6(dIQR)N-1/3ρq.(73)情况,当q≤不适用于支持无限的PDF,因为在这种情况下Nq=1/2~ u(supp(p)),(74),这是对p(x)的支持度的度量。这种情况可以纠正,例如,假设PDF有一个有限的支持(即,它是一个有界分布),这引发了关于正确估计分布边界的讨论。原则上,人们可能会试图通过将Scott的过程推广到正态分布可以替换为其他L’evy(稳定)分布[24,46])来确定情况。不幸的是,这种希望是错误的。事实上,基于重尾稳定分布的Scott方法将参数q限制在1/2以上。例如,在L’evyu稳定分布的情况下,渐近衰减aspu(x)~lux | 1+u表示|x |→ +∞, (75)(lu是一个依赖于u的常数[24])Rp2q的完整性-1(x)dx,表示等式(67)中的Nqfrom仅对q>+2(u+1)有意义。(76)另一方面,我们在第3.2节中的讨论表明,对于多时间标度的识别,重要的是只有RE与q≥ 1.4.5. 为了解决多尺度动力学问题,我们必须在所提出的方法中同时估计更多的概率分布pqs,以获得更多的时滞{s,s,…,sm},所有这些都具有相同的单元宽度。数字的选择根据第2节中的介绍性定义,这与所涉及的动态是多尺度的,并且典型的时滞不同的情况相对应。这实际上是通过考虑基本时滞s的倍数来利用的。例如,对于调查的标准普尔500指数系列,考虑的基本时滞s为1天。吉兹巴和J。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-3-2 23:04