楼主: mingdashike22
961 39

[量化金融] 股票网络的非线性 [推广有奖]

11
nandehutu2022 在职认证  发表于 2022-6-10 01:24:42
对于两个实随机变量X,Y,该系数由ρX,Y=sE[(X- E(X))(Y- E(Y))]E[(X- E(X))]E[(Y- E(Y))],(2),其中E(·)表示期望值。我们用r(·,·)表示相关系数的有限估计。考虑距离而不是重量通常很有用。因此,根据中的方法,我们使用欧几里德度量转换计算的相关性:δX,Y=q2(1-ρX,Y)。(3) 我们使用互信息来测试相互依存关系中的任何非线性。对于两个离散随机变量X和Y,其值取自X和Y,互信息由i(X,Y)=Xy定义∈XXx个∈Xp(x,y)logp(x,y)p(x)p(y),(4)其中p(x)=p r[x=x],x∈ X是随机变量X的概率分布,P(X,y)=P r[(X,y)=(X,y)]是X和y的联合概率分布。对于连续随机变量,我们使用积分而不是求和来定义互信息,并使用适当的离散化来估计其值。根据连续概率空间的离散化方式,有各种方法来估计互信息。这些估计的一个常见选择是基于边际等量化方法的simplebox计数算法,该算法生成的分区使得边际箱子是等概率的。对于考虑中的时间序列长度,之前建议使用4个箱子进行离散化40,51是4,尽管作者还提到了使用8个箱子的可能性,基于另一参考。这种选择也低于文献中规定的界限,作者建议使用数量严格小于Q=n+1的箱子√对于nv ar=2个变量,时间序列长度T=2608等于13.765,这使得4和8的选择都可以接受。有限样本互信息的估计取决于样本大小的偏差。

12
何人来此 在职认证  发表于 2022-6-10 01:24:45
之前曾建议对该偏差进行校正,后来用于校正复杂网络的输入数据37,38。这种校正的思想是将估计的互信息值与具有相同样本量和分析确定的互信息值的总体实现进行比较。因此,我们分析的第一步是改变互信息的计算,以解释这种偏差。我们将此步骤用于互信息的每个估计。当变量X和Y具有二元高斯分布时,我们可以使用以下众所周知的公式基于线性相关计算互信息I(X,Y):I(X,Y)=IG(X,Y)≡ -日志(1- ρX,Y)。(5) 对于非高斯分布的一般分布,该方程可能不成立。在下文中,我们使用非线性项而不是非高斯项来与文献保持一致。重要的是,非线性可能由两个原因引起。首先,对于二元依赖,非线性可以由一元边缘分布的非高斯性给出,这不影响互信息,但可能会显著改变相关值。其次,即使存在正态边际分布,非线性也可能由二元依赖模式(即copula)的非高斯性引起。在非线性不仅隐藏在边缘分布中的情况下,我们可以使用最近建议的方法评估非高斯信息。该方法基于一个简单的事实,即具有单变量高斯分布的变量X和Y的互信息由下而下的高斯互信息来限定,高斯互信息是使用方程(5)从线性相关计算得出的。更正式地说,这是指i(X,Y)≥ IG(X,Y),其中当二元相关性为高斯时,等式成立。

13
大多数88 在职认证  发表于 2022-6-10 01:24:48
通过这种方式,我们可以将超正态(非高斯)信息定义为原始数据中的互信息偏差,这些互信息来自相应的二元高斯分布:即(X,Y)≡ I(X,Y)- IG(X,Y)(6)该特性可用于量化数据中的非线性量。B、 网络属性网络是一个未加权图G=(V,E),其中V是一组节点,E是一组(未加权)边。与上面定义的库存数量类似,图的大小定义为节点数量,并用| V(G)|=N表示。有时有必要定义一个加权图,我们将其理解为三重Gw=(V,E,w),其中V和Eare与之前定义的一样,w:E→ R是为每条边指定权重的权重函数。请注意,在第一步中根据数据构建的相关或互信息值的原始矩阵是对称的,表示加权边和thusa加权图的集合。我们将图的密度定义为相对于最大可能边数的边数,即ρG=2 | e |/N(N- 1). 有时,能够描述图形特定部分的特征很重要。对于顶点和边,我们使用标准集合表示法。对于一组节点V V(G)我们为所有边写E(V) E(G)使得E={u,v}∈ Eit认为u,v∈ 五、 边集E(V)定义了一个图G=(V,E),等于由集V导出的图G的子图。这里常用的顶点子集是节点V的邻域,用Γ(V)表示,它由所有节点u组成∈ Γ(v)使得{u,v}∈ E(G)。由于我们将网络理解为未加权图,因此需要对权重矩阵进行二值化,以从原始加权图中获得未加权图。有各种标准策略。

14
kedemingshi 在职认证  发表于 2022-6-10 01:24:51
股票网络最古老和最常用的策略之一是使用原始加权图的最小生成树(MST),我们使用标准的Kruskal算法,生成一个简单的网络,即树(一个无圈的连通图)。这种方法对原始加权图的边进行约简非常困难。这就是为什么提出了另一种方法,称为平面最大过滤图(PMFG)。这种方法找到一个未加权图,该图在保持平面的同时尽可能多地保持高加权边。我们的算法从原始图的一个空副本开始,即没有边。此外,我们根据原始边的权重对其进行逐级排序,并按此顺序进行迭代,即从最大权重到最小权重。在每一步中,我们尝试向当前构造的图添加一条边,并确定生成的图是否为平面图。否则,将删除该边。这两种方法,即MST和PMFG,都没有任何参数,并导致在某种意义上只保留必要的最强边的connectedgraphs。赢家通吃(WTA)方法是参数化的,基于根据给定的权值阈值保持边缘,即保持所有权重大于或等于给定阈值的边缘。这种方法的缺点之一是可能产生断开连接的图形。对于无向图,我们可以定义几个特征,这些特征可以进一步用于分析基础系统,请参见示例。

15
可人4 在职认证  发表于 2022-6-10 01:24:54
我们根据其在股票网络文献中的流行程度选择了一组具有代表性的特征,即度或度中心23,45,56、聚类系数57-59、贴近度中心23,45,56、介于中心23,45,56、特征向量中心、偏心44,45,56、特征路径长度和分类系数22,60之间。我们可以大致区分两种类型的特征——局部特征和全局特征。全局特征评估图的整体结构,而局部特征描述每个节点周围的结构。局部特征的一个示例是节点度。对于节点v,我们将度degG(v)定义为图G中与v相邻的节点数。我们还使用标准的较短符号degG(v)=kv。所有节点度的集合是一个重要的网络特性,决定了一些基本的复杂网络特性,如无标度特性。将顶点表示为[n]={1,2,…,n}中的数字,我们将邻接矩阵A定义为{au,v}u,v∈[n] ,其中au,v=1,如果{u,v}∈ E(G)和au,v=0,否则。然后,顶点v的度数可以定义为kv=Pu∈[n] \\ vav,u。上述小世界属性是全局特征的一个示例。粗略地说,小世界的特点是节点之间的平均距离短,集群性高。为了确定距离,使用节点之间的最短路径。路径是一个节点序列,其中两个连续的节点在图中相邻,并且该序列中没有两个顶点。路径的长度是该序列中的边数(比节点数少一条)。两个节点u和v之间的距离d(u,v)是它们之间最短路径的长度。平均距离使用特征路径长度进行评估,定义为l=n(n- 1) Xu,v∈V(G)d(u,V)。

16
可人4 在职认证  发表于 2022-6-10 01:24:57
(7) 有时,会使用此特性的本地版本,称为节点最短路径或平均最短路径。该特性表示每个节点v到图中任何其他节点的平均距离:L(u)=n- 1十五∈V(G)\\{u}d(u,V)(8)注意,L(u)可以用来计算L。让我们也注意到,从距离确定的特征可能强烈依赖于图的连通性。如果图形未连接或甚至有许多连接的组件,则可以将许多距离设置为“单位”。有多种方法可以处理这种情况。对于使用MST或PMFG进行过滤获得的图形,这并不代表有问题,因为这些图形总是相互关联的,因为我们可以假设原始的相互依赖矩阵是稀疏的。在WTA过滤的情况下,我们使用标准方法,从现有路径平均计算。小世界特性的第二个主要特性是节点的聚类。聚类的特点是一个节点具有密集八分之一的平均趋势。所使用的度量是为顶点v定义的聚类系数∈ (G) byC(v)=2 |Γ(v)| kv(kv- 1) =Pu、wav、uau、waw、vkv(kv- 1). (9) 该特征的全局版本称为平均聚类系数,通过平均局部聚类获得,并通过c=nXv正式定义∈V(G)C(V)。(10) 距离的概念用于许多其他类型的特征。一类重要的特性是中心性。一个例子是中间性中心性,粗略地说,它为每个节点分配了一个相对级别,在通过最短路径连接其他节点时,该特定节点在该级别起到了中介作用。形式上,对于节点v,选择所有对不同的节点u和w,并找出连接u和w的最短路径中有多少条包含节点v。

17
能者818 在职认证  发表于 2022-6-10 01:25:01
对所有节点对的这些值进行平均,得到中间性中心,即Cb(v)=Xu,w∈V(G),v6=u6=wσu,w(V)σu,w,(11)其中σu,wis是u和w之间的最短路径数,σu,w(V)是u和w之间通过节点V的最短路径数。使用最短距离的中心性的一个简单版本是贴近中心性。该特性为每个节点计算到任何其他节点的平均距离的倒数值,即Cc(v)=n- 1Pu:u6=vd(u,v)(12)我们可以取节点到所有其他节点的最大距离,而不是求和,从而获得另一种基于距离的中心度,称为偏心率。该特征正式定义为EC(v)=maxu∈V(G)d(V,u)。(13) 与基于距离的概念不同,中心性概念的另一个例子是投资者中心性。该中心性通过确定邻接矩阵的特征向量,将节点的重要性与其所有邻居的重要性联系起来,即它可以通过ce(v)=λXu隐式确定∈V(G)av,uCe(u),(14),其中λ为常数。全局版本同样只是在所有节点上进行平均,与聚类系数类似。似乎大多数全球特征只是局部特征的平均值。然而,还有一些描述网络某些全局属性的其他特征,这些特征并不平均于局部特征。一个例子是网络的分类特征,它表示节点以相似程度连接到其他节点的趋势。分类系数定义为R=Puv∈Ekukv公司- kPu,v∈E(ku+kv)- k、 (15)式中,k=mhPu,v∈非线性评估在本节中,我们概述了评估非线性对网络特性影响的拟议程序。通过将其应用于上述NYSE100数据集来演示此过程。

18
kedemingshi 在职认证  发表于 2022-6-10 01:25:04
在本节中,我们使用xito表示如第二节所述经过适当预处理的时间序列。A.探索二元和边际非高斯性探索依赖非线性的第一步是目视检查与线性的偏差。为此目的,一个方便的工具是使用散点图,比较每对变量的相关性和互信息的估计值。对图1的检查表明,在我们的示例数据集中,互信息通常以线性相关的方式增长,但是这种关系不是很紧密。特别是,许多变量对的互信息估计值与高斯互信息IG的理论值有很大的偏差(如黑线所示)。0.0 0.2 0.4 0.6 0.8相关系数r(xi,xj)0.00.20.40.60.81.0交互信息I(xi,xj)RSP=0.8658图。1: 原始数据(NYSE100股票收盘价格的对数回报)的相关性和互信息估计值与斯皮尔曼关系值之间的关系。每个灰点表示一对变量xi,xj的r(xi,xj)和I(xi,xj)的值;i、 j∈ {1,…,N}。高斯互信息ig用黑线表示。如前所述,偏离高斯性可分为两种类型;第一个由一元边缘的非高斯性给出,第二个由二元依赖模式(copula)的非高斯性给出。值得注意的是,前者可以通过一个简单的单调重标度来消除,该重标度将边缘分布标准化。我们将使用此转换预处理的时间序列表示为xNi。在图2中,我们还将重新缩放后的散点图可视化。

19
大多数88 在职认证  发表于 2022-6-10 01:25:07
校正后,互信息与相关性的关系更加密切,表明大部分不匹配是由于原始单变量分布的非高斯性(例如峰度、偏度、异常值等)。从实践角度来看,这表明互信息的评估可能会被计算要求低得多的单变量标准化操作和线性相关系数的评估所合理替代,或者类似地,可以通过从原始数据计算皮尔曼相关系数来替代。0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8归一化数据r(xNi,xNj)的相关系数0.00.20.40.60.81.0归一化数据I(xNi,xNj)的交互信息RSP=0.9775图。2: 从单变量归一化数据得到的相关性和互信息估计之间的关系。可视化如图1所示。B、 尽管如此,图2中的相关系数和互信息之间仍然存在一些不匹配。我们继续问几个问题:这种非线性有多大?这种非线性的本质是什么?最后,它如何影响图形属性?我们还注意到,互信息和相关性(或相应的高斯互信息)之间的一些偏差可能是由于有限数据样本的互信息和相关性估计不准确所致,另请参见图3中为线性化数据计算的相关系数和互信息之间的关系-使用替代数据集使数据线性化,请参见第IV C节中的描述。为了量化观察到的非线性,我们计算每对变量的异常信息估计值。图4显示了归一化数据的所有变量对的异常信息。

20
可人4 在职认证  发表于 2022-6-10 01:25:10
可以清楚地看到,它不是均匀分布的,矩阵的某些行(列)包含的值明显高于其他行(列)。在这个特定的数据集中,我们检测到一个明显的异常值——在第七行,代表AIG股票。我们可以在信息/相关性散点图中显示对应于该库存的相关性值(见图5)。我们可以看到,这种股票确实是相关性和互信息之间最明显偏差的原因。对相应时间序列的检查(图6)给出了一个很好的数据特征示例,该特征可能隐藏在非线性相关性背后,尤其是深刻的非平稳性。正如在不同背景下所报告的那样,明显的非线性可能是深刻的非平稳性的有用标志。0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8线性数据r(xi,xj)的相关系数0.00.20.40.60.81.0线性数据I(xi,xj)的交互信息RSP=0.9914图。3: 从原始数据构建为替代数据集的线性化数据计算的相关性和互信息估计之间的关系。可视化如图1.0.060.040.020.000.020.040.060.08NEMFAIIGIG所示。4: 所有变量对的异常信息估计Ie(xNi,yNi)xNi,xNj;i、 j∈ {1, . . .

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-9 12:48