楼主: 能者818
992 31

[量化金融] 金融市场中基于互信息率的网络 [推广有奖]

11
可人4 在职认证  发表于 2022-5-5 09:58:45
由于entropyrate HR(X)比皮尔逊相关系数等线性统计指标更好地测量序列X的时间结构,单位时间互信息(MIR)的产生也比协方差(互信息和互Lempel-Ziv复杂度考虑了所有的相互依赖性,而不仅仅是线性度)更全面地量化了两个序列X和Y之间的相互关系。互信息率和互Lempel-Zivcomplexity也能更好地描述序列的时空结构,因为这些序列不仅是两个随机变量的联合实现,而是一个随机过程的联合实现,使相互的Lempel-Ziv复杂性比为奇异随机变量计算的数量集合更有意义[75]。最近的金融危机使得对金融市场及其动态特性的复杂性质的调查比以往任何时候都更加重要。近年来金融市场及其行为的复杂性,加上非常快速的动态(例如所谓的金融崩溃),意味着我们再也不能忽视金融市场的非线性,而不损失这些系统的重要信息。因此,在本文中,我们扩展了已知的金融数据分层聚类方法,并创建了依赖网络,该网络仅以直观的方式呈现了所研究市场上最重要的相互依赖关系,通过将皮尔逊相关系数的相似性度量转换为使用多维LempelZiv复杂性估计的互信息率的信息论方法。

12
kedemingshi 在职认证  发表于 2022-5-5 09:58:48
然后,我们将其应用于华沙证券交易所和纽约证券交易所的日志收益,以显示结果与使用相关系数获得的结果之间的差异。二、相似性度量基于网络的模型中节点的拓扑安排(尤其是在研究金融市场时)通常基于皮尔逊关系系数,而在金融市场的情况下,相关性是根据连续两天收盘价对数的差异来计算的。对所研究系统中的所有金融工具对的相关系数进行了估计。上述皮尔逊关系系数定义为[77]:ρX,Y=E(XY)- E(X)E(Y)p(E(X)- E(X))(E(Y)- E(Y))(1)其中X和Y是两种研究金融工具的对数价格变化随机过程。对给定时期的相关系数进行估计。相关性的性质要求相关矩阵是对称的,对角线为ρX,X=1。因此,这样的矩阵只包含n(n)- 1) /2有意义的相关系数[78]。如上所述,作为相似性度量的皮尔逊相关系数不是欧几里德度量,因此不能直接用于确定网络拓扑。因此,需要基于相关性形成一个通用度量,以确定网络中节点之间的近似距离。通常使用以下公式:δ(X,Y)=1- ρX,Y.(2)这种形式保证δ(X,Y)是欧几里得度量,也就是说它符合三个公理:1。δ(X,Y)=0当且仅当X=Y;2.δ(X,Y)=δ(Y,X);3.δ(X,Y)≤ δ(X,Z)+δ(Z,Y)。为了将这种度量扩展到包括非线性依赖性,我们建议基于两种金融资产连续两天收盘价之间的互信息率来确定网络中节点的拓扑排列。

13
能者818 在职认证  发表于 2022-5-5 09:58:53
为了确定互信息率,我们首先讨论香农的熵、熵率和互信息公式[64]。熵率是熵概念的一个衍生术语,它衡量随机变量中的不确定性。单个随机变量X的香农熵为定义灰(X)=-Xip(xi)logp(xi)(3)将所有可能的结果{xi}分别与p(xi)的概率相加[64]。对于两个随机变量(X,Y),可以计算联合熵H(X,Y)和条件熵H(X | Y),联合熵H(X,Y)测量与这两个变量相关的不确定度,条件熵H(X | Y)测量一个随机变量的不确定度,而另一个随机变量已观测到。联合熵与条件熵的关系如下:H(X | Y)=H(X,Y)- H(Y)(4)香农还引入了熵率,它推广了依赖变量序列的熵概念。对于平稳随机过程X={Xi},熵率定义为:HR(X)=limn→∞nH(X,X,…,Xn)(5)HR(X)=limn→∞H(Xn | X,X,…,Xn-1) (6)式(5)适用于所有随机过程,但式。(6) 需要过程的平稳性。因此,我们可以将熵率解释为在观测到完整历史的n时刻,信息生成过程中留下的平均不确定性的度量。信息熵理论将随机过程的信息熵率定义为单位时间内产生的新信息量[44]。联合熵率和条件熵率同样可以定义和解释。基于熵的概念,我们还可以定义交互信息,香农提出了以下方法[64]。

14
kedemingshi 在职认证  发表于 2022-5-5 09:58:56
给定两个离散随机变量X和Y,它们之间的互信息定义为:IS(X,Y)=Xy∈YXx∈Xp(x,y)logp(x,y)p(x)p(y),(7)其中p(x,y)是x和y的联合概率分布函数,p(x)和p(y)是边际概率分布。为了完整性,我们还对连续随机变量进行了相同的定义:IS(X,Y)=ZYZXp(X,Y)logp(X,Y)p(X)p(Y)dx dy,(8)其中p(X,Y)是X和Y的联合概率密度函数,p(X)和p(Y)是边际概率密度函数。互信息可以通过熵来等效定义:IS(X,Y)=H(X)+H(Y)- H(X,Y),(9),其中H(X)和H(Y)是边际熵,H(X,Y)是X和Y的联合熵。互信息衡量X和Y共享的信息量,换句话说,一个随机过程的信息减少了另一个随机过程的不确定性。互信息是非负的,andIS(X,X)=H(X)。互信息率(MIR)也是香农[64]首次引入的实际传播率[79],因此其他研究人员对其进行了更严格的定义[80,81]。正如熵率代表单位时间的熵一样,互信息率代表单位时间内两个动态变量之间交换的互信息。为了简化MIR的计算,如果我们有两个连续的动态变量,我们将它们转换为两个离散符号序列X和Y(无论如何,我们需要离散变量来计算Lempel-Ziv复杂性)。

15
mingdashike22 在职认证  发表于 2022-5-5 09:59:00
对于此类序列,互信息率定义为:MIR=limn→∞IS(n)n,(10)其中IS(n)表示通过考虑字长n计算的两个序列X和Y之间的互信息。互信息是一个基本量,因为它具有一般的信息理论性质,因此使用其动态扩展来量化金融工具之间的依赖性似乎是自然的。它的最大值给出了两个研究信息源之间的信息容量。因此,计算互信息率或其界限的方法在许多应用中至关重要。研究人员还表明,对于平稳性、统计稳定性或无记忆源[82],可以使用noneed进行可靠估计。由于互信息率是在一定限度内由概率确定的,因此无法轻松计算,尤其是如果要从大型复杂系统的相空间轨迹计算互信息率。事实上,这些困难与计算科尔莫戈罗夫-西奈熵HKS时发现的困难相似[83,84]。实际上,上述定义并不是计算实践中互信息率的明显方法。其中一种方法是使用Kolmogorov的算法复杂性来估计熵率和互信息率。但互信息率及其界限也可以根据Lyapunov指数和可预测范围来定义。在相互依赖性快速衰减的动力系统中,等式(9)中的互信息测量X和Y之间共享的信息量,该信息量在特定时间间隔T内产生,其中T表示动力系统从初始状态或相互依赖性衰减为零所需的时间。换句话说,T是这个系统的可预测性。

16
kedemingshi 在职认证  发表于 2022-5-5 09:59:05
这种系统中的相互依赖性不能用线性相关性来描述,而只能用空间概率的演化来定义非线性相关性。因此,动力学变量X和Y之间的互信息率可以通过:MIR=IST(11)来估计。在混沌系统(对初始条件敏感)中,预测只可能在小于可预测性视界时间T的时间内进行,可通过:T估计≈λ对数. (12) 其中λ是在划分为大小为的分区的空间中测得的最大正Lyapunov指数。尽管如此,我们还是要使用前面提到的概念来估计互信息率,即Lempel-Zivcomplexity,它可以用来估计熵和互信息率,因为它与科尔莫戈罗夫意义上的复杂性有关。1965年,Olmogorov将序列的复杂性定义为产生该序列的最小二进制程序的大小[44]。该定义不可操作,因此使用中间测量。LempelZiv算法就是测试数据序列随机性的测量方法之一。该算法由Jacob Ziv和Abraham Lempel于1977年首次引入[85]。在此基础上,产生了许多熵率的估计器。在本文中,我们遵循[66]并使用Kontoyiannis在1998年创建的估计器(估计器a)[86]。该估计器被广泛使用[66,87],与之前基于Lempel-Zivalgorithm[86]的估计器相比,该估计器具有更好的统计特性,尽管可以从[65]中选择大量稍微不同的变量,这是非常相关的。正式计算随机变量X的熵率时,必须知道每个可能结果p(xi)的概率。

17
kedemingshi 在职认证  发表于 2022-5-5 09:59:10
当这些概率未知时,可以通过用观测数据中的相对频率替换概率来估计熵。上述估计器定义为:^HRlz=n lognPi∧i,(13),其中n表示时间序列的长度,∧ide表示从时间i开始的最短子串的长度,该子串在时间i之前尚未观察到,即从时间1到时间i- 1.众所周知,对于平稳遍历过程,当n接近完整性时,^HRlz(X)以1的概率收敛到entropyrate HR(X)[86]。重要的是,在原始数据点连续的情况下(金融市场也是如此),我们需要对数据点进行离散化,以达到Lempel-Ziv复杂度估计器的目的。这个过程可以通过多种方式进行,数据被分配到的箱子的数量是一个惯例和研究人员的选择,但建议它不应大于样本大小的平方根,事实上应该小得多。对于金融市场,我们建议箱子的数量应在4[73]到8[66]之间。然而,重要的是,这些状态代表四分位或其他相等的划分,因此每个状态被分配相同数量的数据点。这种设计意味着模型没有不必要的参数,这可能会影响使用数据时得出的结果和结论。这种实验装置也被证明非常有效地揭示了原始数据的随机性[88]。基于此,我们还可以定义多维序列的Lempel-Ziv复杂性。事实上,Kaspar和Schuster在过去25年里首次尝试使用Lempel-Ziv复杂性分析时空数据[89]。[74]中提出了一种更自然的方法来扩展向量数据的Lempel-Ziv复杂性。

18
mingdashike22 在职认证  发表于 2022-5-5 09:59:13
这是通过扩展序列的字母表来实现的。我们考虑k序列Xi=Xi,1。xi,i=0,K- 1,其中字母分别位于字母表A,Ak-1个尺寸α,αk-1.然后我们考虑一个序列z=z。Z定义在扩展字母表B=A×。×Ak-1号α。αk-1,组成k-uplets zj=(x0,j,…,xk)的组件-1,j)。因此,Z是一个n个k-uplets的序列,而不是一个k×n个字母的序列,因此它不是字母混合方法的结果。Lempel和Zivholds为k-偶定义的方法,因此Lempel和Ziv的所有工作对于向量序列仍然有效[67]。因此序列X的联合Lempel-Ziv复杂性,Xk-1定义为:HRlz(X,…,Xk)-1) =HRlz(Z)(14)此外,若字母表相同且形式为A={0,…,α- 1} ,我们还可以定义sequenceZ=z。zn考虑到每个zj都是xi,jasα分解,即zj=Pk-1i=0xi,jαi.定义Xias的联合Lempel-Ziv复杂性与之前的定义相同。然后,多维序列的Lempel-Zivcomplexity可以看作是一个联合Lempel-Zivcomplexity。因此,与香农信息论[64]类似,可以使用为两个序列X和Y定义的联合Lempel-Ziv复杂性定义相互Lempel-Ziv复杂性:^HRlz(X,Y)=n lognPi∧i,(15),其中i和λ定义在上述联合序列Zde上(作为X和Y的并集)。然后,mutualLempel-Ziv复杂性定义为[75]:MHRlz(X,Y)=HRlz(X)+HRlz(Y)- HRlz(X,Y)。(16) 互Lempel-Ziv复杂度(MLZC)可以解释为两个序列之间的收敛度量。相互Lempel-Ziv复杂性对于有限N可以是负的,但对于N→ ∞ 渐近量MHRlz(X,Y)总是正的。

19
能者818 在职认证  发表于 2022-5-5 09:59:16
事实上,MLZC渐近收敛到互信息的动态扩展:互信息率[90,91]。我们现在知道了互信息率是什么,以及如何使用多维数据的Lempel-Ziv复杂度渐近估计互信息率。但是为了创建依赖网络的原子,我们更喜欢欧几里德度量,它既不是互信息也不是互信息率。因此,我们需要将互信息率(相当于互Lempel-Ziv复杂度)转换为满足欧几里德度量公理的度量。在此,我们将使用[7]中提出的基于互信息的度量。由于互信息和互信息率共享其大部分属性,因此可以使用此度量直接与互信息率交换互信息。互信息和互信息率本身就是相似性度量,尽管不是很好的定义,因为小值意味着网络中的大距离。但修改它们是有用的,这样得到的量就是严格欧几里得式中的一个度量。事实上,第一个这样的指标是众所周知的[44]。数量d(X,Y)=H(X | Y)+H(Y | X)=H(X,Y)- IS(X,Y)(17)d(X,Y)=H(X)+H(Y)- 2IS(X,Y)(18)满足三角形不等式,非负,对称,满足d(X,X)=0。这已在[7]中得到证实。但d(X,Y)并非适用于所有目的。由于在构建网络时,我们可能希望比较两个对象和两个对象簇(例如,将扇区聚集在一起)之间的接近度,因此我们会将距离度量与簇的大小进行无偏。正如[92]中有力地论证的那样,对于IS(X,Y)或d(X,Y),这是不正确的。

20
可人4 在职认证  发表于 2022-5-5 09:59:20
互信息取决于所研究序列的大小。因此,通过除以总熵,我们形成了两个不同的距离,它们可以测量相对距离。那么数量:D(X,Y)=1-IS(X,Y)H(X,Y)=d(X,Y)H(X,Y)(19)是一个度量,其中d(X,X)=0和d(X,Y)≤ 1表示所有对(X,Y)。此外,数量:D′(X,Y)=1-IS(X,Y)max{H(X),H(Y)}=max{H(X|Y),H(Y|X)}max{H(X),H(Y)}(20)也是一个度量,也有D′(X,X)=0和D′(X,Y)≤1表示所有对(X,Y)。在D′(X,Y)的意义上,它比D更尖锐≤ D(X,Y)。D′相对于D的实际优势尚未发现[7],因此,由于D的简单性质,建议使用D。由于我们使用的是互信息率,所以我们可以同时使用d和d,因为互信息率是按信息位定义的,因此,根据互信息定义的d的提取不适用。因此,d和d之间的选择不那么重要,因为它们被定义为互信息率,但为了一致性,我们将在本研究中使用d。让我们再次定义,这一次是根据相互信息率:D(X,Y)=D(X,Y)HR(X,Y),(21)其中:D(X,Y)=HR(X,Y)- mir(X,Y)(22)d(X,Y)=HR(X)+HR(Y)- 2M IR(X,Y)(23)我们现在有了一个指标,可以量化层次网络中节点之间的距离,描述金融市场的相互依赖性,因此我们可以快速总结创建此类网络的过程。三、 分层网络定义了距离度量,我们现在转向两个最适合金融市场研究的过滤图的构造方法,即最小生成树和平面最大过滤图。这些方法在文献中广为人知,因此我们仅对其进行简要说明。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-10 07:06