楼主: 能者818
1150 22

[量化金融] 一种基于权重的股票相关性信息过滤算法 [推广有奖]

11
大多数88 在职认证  发表于 2022-6-15 22:17:40
还值得一提的是,找到精确的最大模块化是一个NP难问题,人们不希望有算法来解决它。2.4.2归一化谱聚类(NSC)NSC是一种算法,它将相似矩阵和聚类数k作为输入,并将数据集划分如下[34,36]。算法NSC algorithmW=(wij)i,j=1,2,。。。,n: 相似矩阵xk:聚类数d:di=nPj=1wij,i=1,2,nL=D- W:拉普拉斯矩阵ν,ν,νk← Eigne问题k个最小特征值的特征向量Lν=λDνV∈ Rn×k← 带ν,ν,νkas columnsyi∈ Rk,i=1,2,n← VC第i行的对应向量,C,Ck公司← 彝族群∈ Rk,i=1,2,n通过k-means算法但是什么是k的好选择?回答这个问题的一个工具是特征间隙启发式[36]。将相似矩阵的拉普拉斯L的排序特征值定义为λ,λ,λn,特征向量表示网络应划分为k个簇,以便λk+1明显大于λ,λk。换句话说,如果k=1,2,…,最大间隙在λk和λk+1之间,n- 1在相似矩阵的拉普拉斯特征值排序中,我们将网络划分为K簇。2.5调整后的兰德指数(ARI)兰德指数【37】是统计中的一种度量,用于量化数据集两部分之间的相似性。ARI是针对偶然性进行修正的兰德指数的另一个版本。给定两个分区,即包含n个元素的集合S的A和B,A={A,A,…,Ar}和B={B,B,…,Bs}的ARI为ARI=Pij日本国立卫生研究院-“Pi人工智能Pj公司北京#n圆周率人工智能+圆周率人工智能-“Pi人工智能Pj公司北京#n(13) 其中nij=| Ai∩ Bj |,ai=sPj=1nij,Bj=rPi=1nij。

12
能者818 在职认证  发表于 2022-6-15 22:17:43
该指标满足ARI∈ [-1,1]因此1显示相同的簇,-1显示完全不匹配,0显示随机分配到簇。3结果3.1股票相关性网络我们从标准普尔/澳大利亚证券交易所200指数的200只股票中选择了125只。用于选择的标准是,这125只股票是2013-2016年整个期间交易的股票。表1显示了各经济部门及其相应股票的数量。为了获得所有股票之间的NMI以生成相似矩阵,我们在我们的数据中选择1013个交易日的仓位大小q=20(参考方程式(6)和(7)),因为asGuo等人【15】提到,对于足够大的q,相互信息的值没有太大差异,他们在数据中考虑734个交易日的仓位大小q=10。我们为上述数据生成了PD和PMFG网络,分析如下。在PD网络中,我们的顶点的度数范围为1到9,而在PMFG网络中,度数范围为3到29。两个网络的可视化如图3所示。表1:。股票经济部门股票经济部门股票数量消费者消费品消费品6能源8金融19医疗10工业16信息技术2材料26房地产12电信服务2公用事业33.2集团上一小节中产生的网络分析表明,有87个规模3及以上的最大集团,包括52个最大的3号派系、23个4号派系、9个5号派系和3个6号派系。同样,在PMFG网络中有122个大小为4的最大团。为了量化同质性,PD网络中最大派系的/87=0.54包括所有属于同一经济部门的股票,而PMFG网络的该比率为/122=0.35。

13
mingdashike22 在职认证  发表于 2022-6-15 22:17:47
我们还比较了两个网络中最小规模为3的最大派系在股票不同

14
大多数88 在职认证  发表于 2022-6-15 22:17:51
在Wang和Xie【20】和Wang etal之后,使用Louvain社区检测方法,对所有股票的不同比例r

15
可人4 在职认证  发表于 2022-6-15 22:17:53
这使得PD和PMFG网络的平均ARI分别为0.31和0.26。然而,经济部门分类并不是股票的全部和最终划分。例如,2018年1月10日ASX/S&P 200数据中被标为房地产的每只股票都已被纳入2016年3月21日ASX/S&P 200数据中的金融类,这意味着经济部门分类可能会发生变化,降低了其代表唯一正确划分的可能性。事实上,也可以认为,其他经济部门中存在一些重要的子类别,这将产生比经济部门数量更多的集群。为了创建经济部门分类以外的另一个划分基准,我们在股票之间NMI的完整图(股票的相似矩阵)上使用了Louvain社区检测。这一计算只产生了四组股票。将表2和表3所示的PD和PMFG网络中通过Louvain社区检测实现的集群与newpartition基准进行比较,我们得到的ARI分别为0.40和0.36。然而,由于基准分区中的集群数量与两个网络中的集群数量相差悬殊,因此无法从这一比较中得出多少结论。为了对两个网络的聚类行为进行更显著的比较,(a)不同颜色表示表2的不同聚类(b)不同颜色表示表3的不同聚类图。3、使用Louvaincommunity检测在PD(a)和PMFG(b)网络中发现的聚类我们在股票的相似矩阵上使用NSC,并将结果划分为CK。然后,我们将NSC应用于PD和PMFG网络,其中相应的分区分别由CPD和CPMFG表示。对于输入到NSC的相似矩阵,我们使用网络的二元邻接矩阵。

16
可人4 在职认证  发表于 2022-6-15 22:17:56
在图4中,Y轴表示CK和CPDversusthat的ARI和CK和CPMFG,X轴表示k。在这里,我们认为如果网络对CKARI较大,则网络具有良好的ARI性能。可以看出,对于较小的k值,网络的ARI性能没有太大差异,对于k=7,8,PMFG具有更好的ARI性能,并且对于k>8,PD始终比PMFG具有更好的ARI性能。如图4所示,我们将集群数量限制为至少4个,因为这是Louvain应用于讨论中的任何网络或图表中的最小集群数量,并且比经济部门的数量小得多。实施第2.4.2节所述的启发式,忽略第一、第二和第三排序特征值之间的差距,因为我们忽略1和2作为聚类数,我们发现相似矩阵排序特征值之间的最大差距为g(λ,λ)=0.74,g(λ,λ)=0.35,g(λ,λ)=0.16。然后我们注意到,当k=4、10、11时,PD网络比PMFG网络具有更好的ARI性能。从另一个角度来看,我们提出的一点是,在按经济部门对股票进行分类时,可能存在一些潜在的子部门。由于我们有11个经济部门,从这个角度来看,集群的数量可以是k>11,对于这些k值,PD始终显示出比PMFG更好的ARI性能。应该说,尽管谱聚类在稀疏网络上的表现一直不好【39–41】,但NSC在我们的网络中给出了一个合理的结果,因为分区与股票的经济部门分类CEO相当匹配,如表4所示。此外,该表的结果是另一个指标,表明k的小值无效,因为CPDand和cei的ARI小于ck和Ce的ARI。

17
kedemingshi 在职认证  发表于 2022-6-15 22:18:00
除此之外,对于较小的k值,CPD/CPMFG和CEI的ARI较小,而k值较大。表4。CPD/CPMFG/CK和Cek PD PMFG的ARI完整图5 0.195 0.0585 0.1216 0.197 0.0921 0.1247 0.195 0.069 0.2298 0.236 0.1665 0.279 0.339 0.1557 0.35210 0.242 0.1015 0.37611 0.274 0.0833 0.2912 0.279 0.0799 0.33As通过对派系同质性的分析,为了检验我们结果的有效性,我们还比较了两个网络在不同派系上的ARI性能股票的随机子集。为此,我们再次考虑了不同的可能比例r=/5、/4、/3、/2,并且每小时从库存中抽取10个大小为brne的样品。然后,我们在样本上实现了PD和PMFG算法来生成这两个网络,并在每个样本的两个网络上应用NSC。分别用CPDi、CPMFGi和CKI表示PD、PMFG和样本的完全相似矩阵的划分,我们考虑了Ckian和Cpdiversus的平均ARI,Ckian和Cmpgfgif的平均ARI,对于i=1,并绘制结果,如图5所示。我们可以看到每个r都有相同的模式;对于足够大的k,PD始终比PMFG具有更好的平均ARI性能,而对于较小的k值,FIG几乎没有差异。4、CPDversus的ARI性能比较CPMFG网络的平均ARI性能。此外,我们可以在图5中看到,随着网络规模的缩小(r值越小),网络的平均ARI性能之间的差异越小。换句话说,强行进入平面网络对较小网络中的股票聚集的影响较小。

18
nandehutu2022 在职认证  发表于 2022-6-15 22:18:03
一个原因可能是,在较小的网络中,大集团的使用较少;因此,将PMFG限制为4的最大集团规模变得不那么重要。3.4稳健性研究网络稳健性或稳定性的一种方法是以一定速率移除其垂直或边缘的子集【23】。在这两个网络上,我们随机移除了100个不同的样本,分别为20%、30%和40%的边缘,并对其应用了NSC。然后,我们绘制了Ck和CpD的平均值以及Ck和CpFG的平均值,如图6所示。正如预期的那样,随着边缘去除百分比的增加,两个网络的ARI性能总体上都有所下降。也就是说,小k(k)的平均ARI有所增加≤ 8和k≤ 6),这可能是小k值无效的另一个指标。因此,PD具有比PMFG更好的聚类行为,因为对于较大的k值,它显示出更好的ARI性能。为了观察哪一个网络通过边缘去除有更多的簇变化,我们取了两个网络在4种状态下每k的ARI方差,即没有变化的网络,然后分别取边缘去除20%、30%和40%的网络。结果如图7所示,我们可以看到,对于每k,ARI的方差没有显著差异,或者PD的方差显著小于PMFG;因此,对于集群中的变化更为稳健。(a) r=/5(b)r=/4(c)r=/3(d)r=/2图。5、不同股票比例r的PD和PMFG网络的平均ARI性能(a)PD(b)PMFGFig。6、不同边缘移除比例下网络NSC的ARI波动图。7.

19
mingdashike22 在职认证  发表于 2022-6-15 22:18:06
结论我们使用NMI度量构建股票间的互相关相似矩阵,并应用PD和PMFG算法生成相应的股票相关网络。我们发现,就股票的金融部门分类而言,最大派系、3派系和4派系在PD网络中的同质性高于PMFG网络。此外,我们还表明,对于NSC算法中实际数量的聚类,PD网络在匹配通过在股票相似矩阵上应用NSC算法实现的聚类方面比PMFG网络具有更好的ARI性能。应该注意的是,上述结果是使用NMI获得的,使用其他相关度量不一定会得到这些结果。此外,我们使用了3n- 6个EDGE,用于构建PPD网络,以便将其性能与PMFG的性能进行比较。考虑到superiorstocks相关网络的标准,目前尚不清楚这种规模的PD网络是否是最佳的。未来研究人员的一个主题是改变PD算法的稀疏性并比较生成的网络。此外,根据文献中使用的标准,可以使用斯皮尔曼秩相关系数(Spearman\'s rank correlation coefficient)等其他股票相关性和依赖性指标来构建股票相关性网络,并将其与其他股票相关性网络进行比较。参考文献[1]R'eka Albert和Albert-L'aszl'o Barab'asi。复杂网络的统计力学。《现代物理学评论》,74(1):472002。[2] Reka Albert、Hawoong Jeong和Albert-L\'aszl\'o Barab\'asi。互联网:全球网络的直径。《自然》,401(6749):1301999年。[3] Albert-L\'aszl\'o Barab\'asi、R\'eka Albert和Hawoong Jeong。

20
nandehutu2022 在职认证  发表于 2022-6-15 22:18:10
随机网络的无标度特性:万维网的拓扑结构。物理学A:统计力学及其应用,281(1-4):69–772000。[4] 西德尼·雷德纳。你的论文有多受欢迎?引文分布的实证研究。欧洲物理杂志B-凝聚态物质和复杂系统,4(2):131–1341998。[5] 亨利·斯莫尔。科学文献中的共引:衡量两个文献之间关系的新方法。《美国信息科学学会杂志》,24(4):265–2691973年。[6] Joseph Galaskiewicz和Stanley Wasserman。社会网络分析:20世纪90年代的概念、方法和方向。《社会学方法与研究》,第22(1):3–22页,1993年。[7] 斯坦利·沃瑟曼和凯瑟琳·浮士德。社交网络分析:方法与应用,第8卷。剑桥大学出版社,1994年。[8] 邓肯·J·瓦茨、彼得·谢里登·多德和马克·EJ·纽曼。社交网络中的身份和搜索。《科学》,296(5571):1302–13052002。[9] 马克·纽曼、邓肯·J·瓦茨和史蒂文·H·斯特罗加茨。社会网络的随机图模型。《国家科学院学报》,99(增刊1):2566–25722002。[10] Michael Boss、Helmut Elsinger、Martin Summer和Stefan Thurner 4。银行间市场的网络拓扑。定量金融,4(6):677–6842004。[11] Kimmo Soram–aki、Morten L Bech、Jeffrey Arnold、Robert J Glass和Walter E Beyeler。银行间支付流的拓扑结构。Physica A:统计力学及其应用,379(1):317–3332007。[12] Rosario N Mantegna。金融市场的层级结构。欧洲物理杂志B-凝聚态物质和复杂系统,11(1):193–1971999。[13] 乔瓦尼·博南诺、圭多·卡尔达雷利、法布里齐奥·利洛和罗萨里奥·曼特尼亚。真实市场和模型市场中基于相关性的最小生成树的拓扑。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-16 08:32