楼主: mingdashike22
2746 87

[量化金融] 金融时间序列的熵分析 [推广有奖]

21
kedemingshi 在职认证  发表于 2022-6-10 07:46:59
对于熵,测量单位是位。例如,头尾概率相等的硬币有H(X)=-2·log()=1。在这种情况下,具有两种状态的离散变量的最大熵为1。另一方面,如果硬币有偏,总是产生头(或尾),那么H(X)=-1·log(1)- 0·log(0)=0;不确定性为零。图2.1显示了熵的水平,它取决于抛硬币时头部(或尾部)出现的概率。图2.1:抛硬币实验的抛硬币熵。当p=0.5时,硬币具有最高的熵。有偏向的硬币具有较低的熵。通过熵测量的不确定性可以理解为确定随机变量值所需的平均问题数量,每个问题都有“是/否”的答案。在硬币的例子中,问题是“头?”(或“尾巴”)。对于50%的案件,只要有一枚公平的硬币,答案都是“是”,提问就停止了。在另一半的情况下,我们需要再次询问。在这个意义上,熵度量表示二进制(是/否)问题的平均数量,以位为单位表示。熵越大,不确定性越高,我们需要问更多的问题来确定正确答案。熵是有界的,下列不等式适用于离散分布0≤ H(X)≤ log(| X |),其中| X |表示X的离散值的数量,如果X具有均匀分布,则等式成立。概率空间X,Y中两个变量X和Y的联合熵和条件熵类似定义为:H(X,Y)=-Xx号∈十、 y型∈Yp(x,y)·log(p(x,y))(2.4)H(x | y)=-Xx号∈十、 y型∈Yp(x | y)·log(p(x | y))(2.5)多变量x的联合熵的一般情况。Xn,H(X。

22
nandehutu2022 在职认证  发表于 2022-6-10 07:47:02
,Xn)在下面引入传递熵时很重要。如果X和Y是独立的随机变量,则条件熵与变量的熵相同:H(X | Y)=-Xx号∈十、 y型∈Yp(x | y)·log(p(x | y))=-Xx号∈十、 y型∈Yp(x)·log(p(x))=H(x)(2.6)条件熵和联合熵的关系如下:H(x,Y)=H(x)+H(Y | x)=H(Y)+H(x | Y)(2.7)在自变量x和Y的情况下,方程(2.6)是熵的一般链式规则的特例(Cover和Thomas(2006))。2.3互信息和传递熵2.3.1定义联合熵和条件熵使我们能够定义X和Y之间依赖关系的简单度量。具体而言,以下定义了具有联合分布p(X,Y)的两个随机变量X和Y的互信息I(X;Y)。在下面的推导中,我们还展示了互信息如何与X andY的熵相关。I(X;Y)≡ -Xx号∈十、 y型∈Yp(x,y)·logp(x,y)p(x)p(y)(2.8)=-Xx号∈十、 y型∈Yp(x,y)·logp(x | y)p(y)(2.9)=-Xx号∈十、 y型∈Yp(x,y)·logp(x)+Xx∈十、 y型∈Yp(x,y)·logp(x | y)(2.10)=-Xx号∈Xp(x)·logp(x)--Xx号∈十、 y型∈Yp(x,y)·logp(x | y)(2.11)=H(X)- H(X | Y)(2.12)互信息测量通过观察Y来减少X的不确定性。在极端情况下,如果X和Y相互独立,使得p(X,Y)=p(X)·p(Y),然后I(X,Y)=0,则不存在互信息。所以得到的信息是由于X和Y之间存在某种依赖关系。事实上,对于ρ相关的高斯变量X和Y w N(0,σ),互信息I(X,Y)有一个简单的解析解-日志(1- ρ) (见Cover和Thomas(2006),第252页)。利用链式规则,可以很容易地证明互信息是对称的(X;Y)=I(Y;X),因此,互信息不能用来确定信息流的方向。互信息为正I(X;Y)≥ 0且等于0,当且仅当X和Y独立时。

23
可人4 在职认证  发表于 2022-6-10 07:47:05
这一重要特性用于一个密切相关的概念中。当且仅当两个概率分布相等时,两个概率分布之间的Kullback-Leibler距离或相对熵为零。互信息可以修改为包括超前-滞后关系:I(X;Y)τ=-Xxn号-τ∈十、 yn公司∈Yp(xn-τ、 yn)·logp(xn-τ、 yn)p(xn)q(yn)(2.13)图2.2(b)描述了有无滞后的互信息。重要的是要注意,互信息并不意味着因果关系。Schreiber(2000)指出,在其中一个观测值中引入时间延迟并不能区分由输入信号的共同响应或由外部因素驱动的共同历史实际生成的信息。转移熵是作者引入的一种信息测度,它弥补了互信息的缺点。图2.2:熵测量左图显示了各种熵和互信息之间的关系。右图显示a)h∞andH(X | X-1) ,b)I(Xt,Yt),I(Xt,Yt-1) ,和c)TY→X(1,1)设p(X,…xn)表示观测子序列(X,…xn)的概率,Schreiber(2000)定义了传递熵asTY→X(m,l)=Xp(xt,…xtm,ytm-l+1,ytm)·logp(xtm+1 | xt,…xtm,ytm-l+1,ytm)p(xtm+1 | xt,…xtm)(2.14),其中xt和YT表示时间t时X和Y的离散状态。参数SM和l分别表示X和Y中包含的过去观测值的数量(见图2.2(c))。如果没有从Y到X的信息流,即X安迪是独立的,那么P(xtm+1 | xt,…xtm,ytm-l+1,ytm)=p(xtm+1 | xt,…xtm)和TY→X(m,l)=0。(2.14)中的传递熵也可以表示为不同历史块的条件倾向性。泰→X(m,l)=H(xtm+1 | xtm,…xt)- H(xtm+1 | xtm,…xt,ytm,…ytm-l+1)=H(xtm+1,xtm,…xt)- H(xtm。

24
mingdashike22 在职认证  发表于 2022-6-10 07:47:08
xt)-H(xtm+1…xt,ytm,…ytm-l+1)- H(xtm,…xt,ytm,…ytm-l+1)(2.15)通过这种方式,传递熵可以理解为xtm+1信息获取的差异,xtm+1条件是其自身历史和y历史,并且仅以其自身历史为条件。如果X的历史没有通知我们xtm+1,但Y的历史完全确定了xtm+1,那么TY→X(m,l)=H(xtm+1 | xtm,…xt)=H(xtm+1)。在没有信息从Y流向X的情况下,(2.15)中第三项和第四项之间的差异为零。因此,我们有0≤ 泰→X(m,l)≤ H(X)。虽然互信息量化了与独立X和Y的偏差,但传递熵量化了与X的偏差,仅由其自身的历史决定(通过条件概率)。与互惠信息不同,传递熵→X(m,l)不是对称的,只考虑来自变量Y的统计相关性,而不考虑来自公共信号的统计相关性。另一种看待传递熵的方法是将其理解为不确定性的解决方案。这与格兰杰因果关系在预测方面的解释相似。从Y到X的转移熵是Y使X的未来变得不确定的程度,超过了X已经给出了关于解决X的未来的信息的程度。人们实际上可以证明高斯变量的格兰杰因果关系等同于转移熵(Barnett、Barrett和Seth(2009))。2.3.2熵估计,统计特征估计熵测度的方法有多种。一种技术使用核密度方法。特别是,文献中基于核密度方法对传递熵和互信息进行了估计(见Schreiber(2000);以及Blumentritt和Schmid(2011))。

25
可人4 在职认证  发表于 2022-6-10 07:47:11
最大似然法(Paninski(2003))也已成功应用。在下文中,我们将重点讨论假设随机变量的离散共域或已“离散化”的域的估计方法。给定时间序列中值的离散化(例如返回序列、下降序列)是将随机变量X的连续值映射到通过划分X的支持度而得到的离散集。这些离散化值通常被称为“字母”或符号。然后用有限和近似熵:H(X)≈^Hbinned(X)=-Xi^p(X∈ i) ·对数(^p(X∈ i) )式中^p(X∈ i) 表示具有以下值的随机变量的估计概率:i、 随着分区的大小越来越小,^Hbinned(X)收敛到H(X)以获得性能良好的分布(有关讨论,请参阅Grassberger(2003))。文献中介绍了对离散数据进行分区的不同方法。在某些情况下,分区是通过将分布划分为相等的部分来形成的,为定义的每个符号产生相等的边际概率。Marschinski和Kantz(2002)选择了这样的划分方案,以避免由于直方图非常不均匀而产生的“不良”影响。作为等边际概率离散化的一个示例,考虑一个返回序列{r,…rn},其中c的分位数为q(rt,c∈ (0, 1). 以下将所有返回映射为三个符号,这取决于返回是否低于、介于或高于33%和66%分位数,形成一个等概率装箱方案:dr(rt)=如果rt<q(rt,0.33),则为0;如果q(rt,0.33),则为1≤ rt公司≤ q(rt,0.66)2如果rt>q(rt,0.66)(2.16),参见Hlavackova Schindler、Palus和Vejmelka(2007)。其他作者更喜欢不等边际概率划分方案。

26
可人4 在职认证  发表于 2022-6-10 07:47:14
在我们的研究中,不能保证边际概率相等,而是取决于抽签规模的分布。让X→ A是离散化的随机变量,其中所有值都组合到M=| A |框中。Pix落入料仓i的概率,1≤ 我≤ M、 将通过计算X在箱子i中的次数来估计,ni=|{X∈ i} |,除以样本量N,因此pi=niN。我们称之为naive entropyestimator的估计量可以计算如下。^Hnaive=-MXi=1pi·log(pi)=-MXi=1niN·log(niN)=log(N)-NXini·log(ni)(2.17)对于小样本,二元分布可能不太均匀,因此具有较低的向下偏置熵E【^Hnaive】- H<0。图2.3显示了不同样本大小的公平硬币(H=1位)的平均naive熵估计。在蒙特卡罗模拟中,将一枚公平的硬币按从50到1000不等的顺序投掷,每枚硬币取样5000次。对于特定尺寸的每个模拟样本,熵用方程式(2.17)中的naive估计值进行估计,并计算估计值的平均值E[^Hnaive]。对于所有样本量,^Hnaiveturnsout都小于1,这说明了thenaive估计量的向下偏差。小样本的影响更为显著(图2.3左图)。格拉斯伯格(2003)对这种“小样本”偏差进行了修正。假设所有pi 1,建议的新估计量Hψ如下:^Hψ=lnN-NMXi=1ni·ψ(ni)(2.18)ψ(x)=d(lnΓ(x))dx,Γ(0,x)=Z∞e-xttdt(2.19)我们将使用该估计器^Hψ,尤其是在估计转移熵时,例如Jizba、Kleinert和Shefat(2011)以及Peter、Dimp fl和Huergo(2010)。对于更大的历史块。正如我们在方程(2.15)中所看到的,传递熵是用块熵计算的。

27
何人来此 在职认证  发表于 2022-6-10 07:47:17
块时间序列是一系列符号集,表示块的每个单元格中的字母组合。由于块在原始时间序列中出现,块时间序列的大小与原始序列减去块长度后的大小相同。对于我们在这里使用的两到三个字母的字母表,假设pi 1将在估计块熵时保持不变,因此可以使用格拉斯伯格估计量。样本(尤其是小样本)中的统计波动将导致熵估计的偏差。“噪声”的大小取决于样本大小和符号集M的大小,或者如果是多个离散随机变量,则取决于共域的大小。对于某些分布,存在^H的预期值与实际值H之间差异的解析表达式(Sch¨urmann(2004))。在这一点上,我们想用上面使用的抛硬币例子来强调naive估计量的方差。对于特定长度的蒙特卡罗模拟,计算熵估计的标准误差^se(^Hnaive)。标准误差如图2.3所示。图2.3中还绘制了具有三个和四个符号的均匀分布随机变量的熵估计的标准误差(类似于具有三个或四个面的硬币)。图中显示,当符号集较大时,agiven样本量的标准误差略高。样本量越小,差异越大。对于给定大小的字母表,选择最大可能的块长度似乎是合乎逻辑的,以便找到不变值,并检测历史中对预测提供最多信息的模式。但对于块熵,块的长度受到样本大小(以及符号集的大小)的限制。块长度越大,噪声越大。

28
mingdashike22 在职认证  发表于 2022-6-10 07:47:20
当块长度接近样本大小时,当符号组合集中在较低和较少的符号中时,估计的块熵降为零。作为控制传递熵估计中噪声的一种方法,Marschinski和Kantz(2002)提出的一种方法是通过bootFigure 2.3:熵估计来估计噪声本身。图中显示了50-1000个数据点之间与样本大小相关的熵估计和标准误差。左图显示了2、3、4符号均匀分布的标准误差^se。右侧显示了公平硬币(具有两个符号的均匀分布)的熵估计^hnaive。捆扎方法。对于两个过程X和Y,从Y到X的信息流由传递熵TY测量→十、 对于信息源Y,我们通过对原始时间序列进行处理来形成第二个集合。如果{Y,…,Yn}是原始样本,π是元组(1,…,n)的置换,那么一个shu-free-ed级数是{Yπ(1),…,Yπ(n)}。通过消除信息源,两个时间序列之间的所有潜在相关性都被破坏,因此观测到的传递熵应为零。多次重复shu’ing过程,估计传递熵的平均u(^Tsh)和标准误差σ(^Tsh)。

29
大多数88 在职认证  发表于 2022-6-10 07:47:23
由于统计数据中没有结构,任何非零估计都必须是有限样本量的人工制品。为了解释传递熵计算中的“噪声”,通过从传递熵估计值中扣除平均u(^Tsh)计算有效传递熵(ET),如下所示:→X(m,l)≡ 泰→X(m,l)- u(^Tsh)(2.20)表示ETY→X(m,l)、m过去历史量X和l过去历史量Y用于预测X.2.3.3过程熵对于相同的分布和独立随机变量序列,一个变量的熵以其他变量为条件,具有一种特殊的简单形式。我们已经看到,对于两个自变量X和Y,条件向性是H(X | Y)=H(X)。将其推广到n个iid变量的情况,得到H(X | X-1.十、-n) =H(X)。这种情况下的块熵isH(X,X-1.十、-n) =n·H(Xi),带0≤ 我≤ n、 对于非独立随机变量,这在实证研究中经常出现,我们希望了解条件熵和块熵在不同块长度上的行为。给定一个过程{Xi},条件entropyh的极限∞= 画→∞H(X | X-1.十、-(n+1))(2.21)在文献中被称为熵率或源熵(Cover和Tomas(2006))。它量化了预测未来观测所需的平均信息X给定m个历史时期(X-1.十、-(m+1))。在单变量情况下,它根据历史上的特定模式对序列的可预测性水平进行量化。类似地,传递熵TY→X可以表示为X的熵,条件是X自身的历史和Y的历史。有关过程熵及其与其他熵度量的关系的描述,请参见图2.2。

30
kedemingshi 在职认证  发表于 2022-6-10 07:47:26
我们将在这里讨论一些与后续章节相关的特殊情况。如果一个过程是周期性的,那么h∞= 如果块长度大于周期,则为0,条件熵变为0。对于任何iid进程{Xi},h∞= H(X),其中H(X)是符号分布的熵。这意味着,无论计算中包含多少历史记录,都没有信息增益。任何给定进程的熵率介于这两个极端之间:0≤ h类∞≤ H(X)。对于马尔可夫过程,h有一个解析表达式∞. 设X为MarkovA过程,如果存在k∈ N、 对于转移矩阵P=(Pij)的所有t.过程,Xt=Xt+kf的周期性。X的平稳分布π是马尔可夫过程X收敛到的极限分布(如果存在)。它是特征值问题π=P·π的解,其形式为πj=ππi·Pij(πiis是X处于状态i的概率)。之所以称之为平稳分布,是因为如果马尔可夫链的初始状态是根据平稳分布绘制的,则马尔可夫链形成平稳过程。我们可以证明,如果马尔可夫链是不可约的非周期的,则平稳分布是唯一的,并且从任何起始分布开始,x的分布到平稳分布为n→ ∞.对于马尔可夫过程的平稳分布,熵率可以简化为灰分∞= 画→∞H(Xn | Xn-1.十) =limn→∞H(Xn | Xn-1) =H(X | X)(2.22),即仅为直接历史Xn-1用于预测Xn。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-26 21:14