楼主: 能者818
1193 22

[量化金融] 一种基于权重的股票相关性信息过滤算法 [推广有奖]

  • 0关注
  • 6粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
39.8040
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
24699 点
帖子
4115
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2024-12-24

楼主
能者818 在职认证  发表于 2022-6-15 22:17:03 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《A Weight-based Information Filtration Algorithm for Stock-Correlation
  Networks》
---
作者:
Seyed Soheil Hosseini, Nick Wormald, and Tianhai Tian
---
最新提交年份:
2019
---
英文摘要:
  Several algorithms have been proposed to filter information on a complete graph of correlations across stocks to build a stock-correlation network. Among them the planar maximally filtered graph (PMFG) algorithm uses $3n-6$ edges to build a graph whose features include a high frequency of small cliques and a good clustering of stocks. We propose a new algorithm which we call proportional degree (PD) to filter information on the complete graph of normalised mutual information (NMI) across stocks. Our results show that the PD algorithm produces a network showing better homogeneity with respect to cliques, as compared to economic sectoral classification than its PMFG counterpart. We also show that the partition of the PD network obtained through normalised spectral clustering (NSC) agrees better with the NSC of the complete graph than the corresponding one obtained from PMFG. Finally, we show that the clusters in the PD network are more robust with respect to the removal of random sets of edges than those in the PMFG network.
---
中文摘要:
已经提出了几种算法来过滤股票间完整相关性图上的信息,以构建股票相关性网络。其中,平面最大过滤图(PMFG)算法使用3-6美元的边构建一个图,其特征包括小集团的高频率和股票的良好聚类。我们提出了一种称为比例度(PD)的新算法来过滤股票归一化互信息(NMI)完整图上的信息。我们的结果表明,与经济部门分类相比,PD算法生成的网络在派系方面表现出更好的同质性,而非PMFG算法。我们还表明,通过归一化谱聚类(NSC)得到的PD网络的划分与完整图的NSC相比,更符合PMFG得到的相应划分。最后,我们证明了PD网络中的簇比PMFG网络中的簇在去除随机边集方面更具鲁棒性。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--
一级分类:Physics        物理学
二级分类:Physics and Society        物理学与社会
分类描述:Structure, dynamics and collective behavior of societies and groups (human or otherwise). Quantitative analysis of social networks and other complex networks. Physics and engineering of infrastructure and systems of broad societal impact (e.g., energy grids, transportation networks).
社会和团体(人类或其他)的结构、动态和集体行为。社会网络和其他复杂网络的定量分析。具有广泛社会影响的基础设施和系统(如能源网、运输网络)的物理和工程。
--
一级分类:Statistics        统计学
二级分类:Applications        应用程序
分类描述:Biology, Education, Epidemiology, Engineering, Environmental Sciences, Medical, Physical Sciences, Quality Control, Social Sciences
生物学,教育学,流行病学,工程学,环境科学,医学,物理科学,质量控制,社会科学
--

---
PDF下载:
--> A_Weight-based_Information_Filtration_Algorithm_for_Stock-Correlation_Networks.pdf (3.7 MB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:过滤算法 相关性 Quantitative Applications proportional

沙发
能者818 在职认证  发表于 2022-6-15 22:17:09
一种基于权值的股票相关网络信息过滤算法*, 蒙纳士大学天海数学学院摘要提出了几种算法,用于过滤股票间完整相关性图上的信息,以构建股票相关性网络。其中,平面最大滤波图(PMFG)算法使用3n- 6条边构建一个图,其特征包括小集团的高频率和股票的良好聚类。我们提出了一种称为比例度(PD)的新算法,用于过滤股票标准化互信息(NMI)完整图上的信息。我们的结果表明,与PMFG对应的经济部门分类相比,PD算法产生的网络在派系方面表现出更好的同质性。我们还表明,通过归一化谱聚类(NSC)得到的PD网络的划分比通过PMFG得到的相应网络的划分更符合完整图的NSCof。最后,我们证明了PD网络中的簇相对于PMFG网络中的簇,在去除随机边缘集方面更具鲁棒性。关键词-股票相关性网络、PD网络、PMFG网络、归一化互信息1简介“复杂系统”是指对具有大量组件的系统的研究,我们希望找出这些组件之间的关系如何影响系统的行为。复杂系统的研究包括数学、统计学和计算机科学等不同学科的概念。

藤椅
mingdashike22 在职认证  发表于 2022-6-15 22:17:12
一类复杂系统是由大量顶点及其相互关系组成的复杂网络。这类网络有很多例子,如全球网络[2,3]、论文引用网络[4,5]、社交网络[6-9]和金融网络[10,11]。*ARC DP160100835支持的研究。一种金融网络是股票网络。在这样的网络中,顶点表示股票,两个股票之间的边的权重表示它们之间的相似性。例如,相似性可能是股票对彼此价格的影响。皮尔逊相关系数是解释股票网络相似性最常用的指标之一。也就是说,包括所有股票之间的相互关联,将创建一个完整的图表,通过密集交织的结构反映复杂性;因此,有人提出了几种算法,将完整的图过滤成一个简单的子图,用作原始网络的表示。其中一些算法是最小spanningtree(MST)[12-15]、资产图(AG)[16]、平面最大过滤图(PMFG)[17-21]和相关阈值法[22-25]。此外,参见Birch等人[26],了解MST、AG和PMFG在数据集上的优势和局限性比较。现在的问题是,究竟是什么让过滤算法比其他算法更好?没有唯一的答案,但为了获得一个视角,让我们快速看看上述方法所报告的积极方面。Mantegna[12]将MST的优势归因于它提供了股票的层次聚类。Onnela等人【16】通过观察AG与MST相比具有更高的存活率(两个连续时间步中存在的公共边的比率),证明了AG的优势。

板凳
何人来此 在职认证  发表于 2022-6-15 22:17:15
然而,他们还提到,与MST不同,没有明显的无标度行为,表明AG的度分布遵循幂律。总之,他们发现AG在市场危机的情况下更加脆弱,与MST相比,它从原始完整的图表中吸收了更多的信息,因为它没有MST的结构限制。Tumminello[17]将PMFG的有用性归因于这样一个事实,即产生的网络总是包含MST产生的网络,并且其中包含集团,而这些集团中的集团大多属于相同的经济部门。Boginski【22】提到,相关阈值法很有用,因为对于相关系数值的足够大的最小阈值,他们的网络具有无标度行为,他们可以通过分析集团和网络的独立集对金融工具进行分类。其他人也讨论了上述算法的优点。Huang等人[23]认为,系数阈值方法对随机顶点失效具有鲁棒性,并且具有较高的平均聚类系数。Wang等人[21]的观点之一是,PMFG很有用,因为它根据经济部门基准聚类提供了良好的股票聚类。总之,目前文献中考虑的过滤算法的积极方面是稀疏性、无标度行为、派系同质性、存活率、良好的聚类和鲁棒性。其中,集群行为似乎最受关注。我们提出了一种称为比例度(PD)的算法,该算法基于股票之间的归一化互信息(NMI)相似矩阵来构建股票相关性网络。

报纸
何人来此 在职认证  发表于 2022-6-15 22:17:19
我们表明,与PMFG规模相同的PD网络根据股票经济部门具有更好的客户同质性。我们还表明,与PMFG网络相比,PD网络在与相似矩阵的归一化光谱聚类(NSC)一致性方面具有更好的总体聚类性。在第2节中,我们定义了相互信息,并解释了为什么我们使用此度量来解释股票之间的相关性。然后,我们描述了PD和PMFG算法,以及我们用来比较这些算法对应网络的方法。第3节,我们提供了PD和PMFG算法构建的两个网络的比较结果。最后,第4节包括我们的结论和对未来研究者的一些想法。2方法我们用来解释股票间相关性的指标是NMI。我们之所以偏爱互信息而非相关系数,是因为前者可以检测到无法通过线性相关度量(如后者)检测到的变量之间的关系【27】。当股票市场呈现剧烈波动时,这种互信息度量的特征更为明显【15】。我们在以下内容中定义了这一衡量标准。互信息衡量两个随机变量之间的独立程度,其中零值表示随机变量的统计独立性。两个股票X和Y之间的互信息可以表示为asI(X,Y)=H(X)+H(Y)- H(X,Y)(1)源自香农信息熵[29],这是一种量化随机变量不确定性的度量。这里,I(X,Y)是X和Y的互信息,H(X)和H(Y)分别表示X和Y的熵,H(X,Y)表示X和Y的联合熵。

地板
nandehutu2022 在职认证  发表于 2022-6-15 22:17:24
离散随机变量X和Y的熵和联合熵由h(X)=-Xip(xi)logp(xi)(2)H(X,Y)=-XiXjp(xi,yj)logp(xi,yj)(3),其中p(xi)和p(xi,yj)分别是X和(X,Y)的概率分布和联合概率分布。与相关系数不同,互信息不受1的限制。由于互信息的大值可能难以解释,因此使用归一化互信息NMI很有用,它将值降低到有界区间[0,1]。定义为NMI(X,Y)=2I(X,Y)H(X)+H(Y)。(4) 我们必须面对的一个问题是,如何构建我们选择研究的标准普尔/澳大利亚证券交易所200指数中股票的概率和联合概率分布,以发现它们之间的相互信息?为此,我们使用了与Guoet al.(15)提出的相同的数值方法。对于在m个营业日交易的n只股票,设Pit为股票i在t天的收盘价。t=2,3,…,时,股票i在t天的对数回报率,m和i=1,2,n由it=lnPitPi(t)定义-1). (5) 为了确定股票i的对数收益率的概率分布,我们将Ritvalues fort=2,3,按升序m,并将排序后的值划分为q个单元。然后我们计算i=1,2,…,的股票i的对数收益数,a=1,2,…,每个料仓a中的n,用fia表示q,用pia求近似概率≈菲亚姆。同样,我们发现股票i和j的对数收益率的联合概率分布为i,j=1,2,n将其排序后的logreturns划分为q×q箱。在这种情况下,fijab表示bin(a,b)中i和j的对数返回数,近似联合概率由pijab给出≈菲雅卜。

7
何人来此 在职认证  发表于 2022-6-15 22:17:27
因此,我们可以用h(Si)=来近似股票i的熵以及股票i和j的联合熵-qXa=1pialogpia(6)H(Si,Sj)=-qXa=1qXb=1pijablogpijab。(7) 因此,股票i和j的互信息可以通过代入方程(1)中的方程(6)和(7)来给出,NMI由NMI(Si,Sj)=2I(Si,Sj)H(Si)+H(Sj)给出,i 6=j(8)生成对角线元素为零的对称n×n矩阵。我们认为这个矩阵是股票的相似矩阵。2.1平面最大过滤图(PMFG)图可用G(V,E)表示,其中V={V,V,…,vn}表示顶点,E={E,E,…,eij,…}表示边。平面图是一种可以嵌入到亏格为0的曲面或平面上的图,没有任何两条边交叉或相交。PMFG算法构建一个网络,如下所示。算法PMFG算法输入:V:stockssij集:等式(8)中给出的Stocki和j之间的相似性输出:G(V,E):平面网络G(V,E)← 空股票网络VS← (i,j,sij)(i,j)列表∈ V,i 6=j),按S doE中(i,j,sij)的降序排序← E∪ {eij}如果G是平面的=F也是← E- {eij}生成的网络是最大平面图,因此有3n- 6边每当nis至少为3.2.2比例度(PD)算法时,我们首先确定输出网络中每个顶点的度,使其与其权重成比例,其中一个顶点的权重(或存量权重)是其在所有其他顶点上的相似性值之和。

8
何人来此 在职认证  发表于 2022-6-15 22:17:31
股票i的权重由wi=Xj6=isij(9)定义,其中swi和sijr分别表示股票i的权重以及股票i和j之间的相似度。因此,计算出的顶点dish度应或多或少由di=SWinPj=1SWj×(2M)(10)给出,其中M是边的总数,因此2M将是所有顶点的度数之和。但是,顶点的阶数(即相邻顶点的数目)必须是整数。为了在保留计算度数总和的同时对计算度数进行四舍五入,我们采用了级联舍入算法。对于本文的其余部分,无论我们在哪里提到与PD算法相关的度,它都意味着整数或四舍五入的计算度。为了使用级联舍入,我们首先将顶点标记为1到n,从最大库存重量到最小库存重量。然后,我们通过减去顶点i的度数的累积和,递归地确定顶点i的度数- 1之前的顶点,从顶点1到i的计算度数的四舍五入累积和。因此,d=bdanddi=biXj=1dje-我-1Xj=1dj,i≥ 2(11)其中Dii是顶点i的度数,bxe表示与x最接近的整数。然后PD算法构建一个网络,如下所示。算法PD算法输入:V:股票集Ssij:等式(8)中给出的股票i和j之间的相似性输出:G(V,E):比例度网络G(V,E)← 空股票网络VS← (i,j,sij)(i,j)列表∈ V,i 6=j),按降序排序deg(i):网络Gfor(i,j,sij)中与顶点i相邻的顶点数S doif(deg(i)<di)和(deg(j)<dj)和(eij/∈ E) thenE公司← E∪ {eij}为了与PMFG网络进行比较,我们将该算法中的边总数设置为M=3n- 6等于PMFG中的值。2.3派系PMFG相对于MST的优势之一是与3派系和4派系相关的附加信息【17,18】。

9
kedemingshi 在职认证  发表于 2022-6-15 22:17:34
团是顶点的子集,其中每两个顶点通过一条边连接。如果这样的子集不包含在任何较大的团中,则称为最大团。大小为m的集团被称为m集团。分析派系的一种方法是调查其中的股票属于同一经济部门的频率;换句话说,就经济部门而言,派系的同质性程度如何?2.4集群复杂网络最广泛研究的特征之一是社区结构或集群。图中的簇是一组顶点,其中这些簇内的边密度远远大于图的平均边密度【30】。如果图的每个顶点只属于一个簇(没有重叠的顶点),则图的这种划分决定了分区。股票相关性PMFG网络的划分已被广泛研究[19–21,31]。与派系分析一样,分析集群的方法之一是调查它们与股票的经济部门分类的匹配程度,因为我们希望属于同一经济部门的股票更可能属于同一集群【32】。我们通过与股票经济部门划分的相似性,评估了Louvain社区检测[33]在PD和PMFG网络中发现的集群,该集群将在下一小节中定义。我们还可以在后面的文章中使用Louvain社区检测和归一化谱聚类(NSC)[34]对种群的相似性矩阵(种群间NMI的完整图)进行分析,并将所得分区与通过相同方法实现的PD和PMFG网络分区进行比较。

10
nandehutu2022 在职认证  发表于 2022-6-15 22:17:37
为了比较任何两个分区,我们使用调整后的兰德指数(ARI)[35],我们在第2.5.2.4.1小节中详细讨论了该指数。Louvain社区检测是一种贪婪算法,它试图通过选择网络每个顶点i的值来优化模块化函数。模块化函数如下所示。Q=2SXijsij公司-SWiSWj2Sδ(ci,cj)(12)此处,Q∈ [-1,1],S是所有相似性(边权重)的总和,cian和cj是股票i和j的群落,δ是简单的delta函数,SWi、SWj和sijas已在等式(9)中定义。在该算法中,在第一步中,每个顶点都在其自己的社区中,也就是说,所有ci都是不同的。检查了将顶点i的社区依次更改为其每个邻居的社区对模块化的影响。然后,顶点i的社区被重新分配给相邻顶点的社区,从而导致模块化的最大增加。在模块化没有增加的情况下,我保留了自己的社区标签。此过程应用于所有顶点并重复,直到所有顶点的团体重新分配都不会导致Q值增加。在第二步中,属于同一团体的所有顶点都被视为单个顶点,上一步中跨越顶点的边现在由新顶点上的自循环表示。此外,上一步中相同社区顶点到另一社区中avertex的几条边由社区之间的加权边表示。这两个步骤将迭代重复,直到步骤1中Vertices的社区分配没有变化为止。也就是说,根据该算法计算的顶点顺序,我们可以得到不同的分区。因此,该算法不会产生全局最大模块化。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-4-19 23:07