楼主: 能者818
1121 23

[量化金融] 建立股票关系网络的多似然方法 [推广有奖]

11
能者818 在职认证  发表于 2022-6-24 05:07:41
如果数据量相对较大,则正态分布是一种常见的方法,但当数据量非常小时,正态分布可能不准确。这里,我们模拟Xi,1:uan和Xi,u+1:n-1独立于频率分布设置并测试其分布特征,如正态分布、泊松分布、指数分布和Rayleigh分布。因此,它被称为多重似然法(MLM),该方法在算法2中给出。表2:算法2多似然法(MLM)输入:规范化互信息矩阵矩阵MIn×nand节点集VOutput:边集E连接Vfor i=1的节点:传感器输入i行中的MI值以获得向量xi使用(5)找到最佳断点ui。对于j=i+1:如果MI(i,j)>uiAdd(i,j)∈ V和e(i,j)∈ EENDIFENDFORENDFORE用于绘制已建立网络的图形。3.3约束多似然方法虽然所提出的算法2能够解决排除节点的问题,但我们的测试表明,导出的网络可能包含尽可能多的相关信息。为了得到每个股票具有适当数量链接的网络,将惩罚函数g(xi)嵌入到似然函数中,似然函数由约束所选链接的总权重组成。这种考虑导致以下约束多似然法(CMLM)CML(u)=log(L((xi,1,···,xi,u)|θ))+log(L((xi,u+1,··,xi,n-1)|θ)) - α×g(xi),(8)这里分别是弱链接和强链接的不同似然函数,α是一个调整参数,可以调整网络中包含的链接数。当α增加时,一些与MI小值相关的边将逐渐从网络中移除。

12
能者818 在职认证  发表于 2022-6-24 05:07:44
下面给出了算法3。表3:算法3约束多重似然法(CMLM)输入:规范化互信息矩阵矩阵MIn×nand节点集VOutput:边集E连接Vfor i=1中的节点:nSort i行中的MI值,得到向量xi使用公式(6)计算CML。使用u=argmax(CML)查找最佳断点ui。对于j=i+1:如果MI(i,j)>uiAdd(i,j)∈ V和e(i,j)∈ EENDIFENDFORENDFORE用于绘制已建立网络的图形。算法3中的关键问题是正则化参数α和函数g(xi,j)的选择,这将在下一节中详细讨论。4结果与讨论4.1 MI值的分布基于我们的样本数据,所有股票对共有11325(即C)MI值,范围为0.0308至0.7092,平均值为0.1584,中位数为0.1520。表4给出了10个主要行业MI的范围和平均值。MI值的分布不均匀。其中,84.26%的相关系数取值范围为0.1-0.3,只有2.02%的相关系数大于0.3。表4还显示,金融机构、IT和CO部门的平均相关性水平高于其他部门,而水利和CSE部门的平均相关性水平较低。同时,FI、TWP、MIN和COsectors的MI值偏差比其他扇区大。表4:MIFI平均MI扇区范围的10个主要扇区的MI值分布MIFI平均MI扇区范围[0.0308,0.6546]0.1648 TWP[0.0523,0.7092]0.1554MA[0.0356,0.5365]0.1547 MIN[0.0378,0.6346]0.1569RE[0.0336,0.4110]0.1557 IT[0.0472,0.3176]0.1606CO[0.0566,0.6399]0.1840 WR[0.0459,0.3359 67]0.1476ETGW[0.0308,0.3367]0.1539 CSE[0.0462,0.2507]0.12244.2网络使用阈值算法在算法1之后,我们首先通过给定一个值η的阈值来构建网络。

13
能者818 在职认证  发表于 2022-6-24 05:07:47
对于η∈ (0.05,0.6),边数随着η的增加而减少。如果η的值太小或太大,则无法很好地确定网络的结构。图1显示了网络拓扑随η增加的变化。当η∈ (0.05,0.20),度分布近似为一条直线,随后缓慢减小,因为大多数相关性聚集在阈值区间(0.05,0.20)。然而,如果η大于0.14,则某些节点将被排除在网络之外。对于η∈ (0,0.14),所有节点都包含在网络中,但网络的度值相对较大,大于100。根据Vandewalle的发现[34],许多真实世界的网络都是无标度的,这意味着只有少数节点应该有更多的链接,而其他节点的链接相对较少。幂律函数可以恰当地描述一个真实网络的度分布,由p(k)给出~ k-γ,其中k是度的值,p(k)表示k度节点的比例。通常,如果γ,网络称为无标度网络∈ (2,3),这反映出大多数节点的显著特征是具有0.2 0.4 0.6阈值050100150度分布0.2 0.4 0.6阈值0501050排除节点B0.2 0.4 0.6阈值1234幂律指数C0.2 0.4 0.6阈值00.51聚类系数图1:从算法1导出的股票网络的拓扑特性。(A-D)分别显示由不同阈值确定的网络的平均度、排除节点数、幂律指数γ和聚类系数。度分布均匀,只有少数节点具有较大的度。如图1C所示,只有当η∈ (0.32, 0.57).聚类起源于渗流理论[35],是股票网络中一个令人信服的特征,即一些单位彼此紧密相连。

14
mingdashike22 在职认证  发表于 2022-6-24 05:07:50
集群是指由三个相互连接的股票节点组成的一组,形成一个强大的单元。聚类系数用于描述图的聚类水平,定义为现有三角形数量与所有可能的三角数量的比率。图1D中网络的聚类系数随着保留值的增加而变小。特别是,当η值在0.05到0.2之间时,它急剧下降。与η的情况相比∈ (0.40,0.60),η网络的聚类系数∈ (0.05,0.20)要大得多。因此,很明显,网络拓扑对阈值η的值非常敏感∈ (0.05, 0.20).然而,网络没有用η完成∈ (0.14,0.60),因为一些节点与网络断开。因此,在传统的阈值框架中很难选择合适的阈值,以生成具有良好边缘密度和网络完整性的网络。4.3网络使用多重似然法我们在表4中显示,不同部门的MI平均值不同。因此,不适合将单个阈值应用于所有扇区和所有节点。自然的想法是分别为扇区或节点设置阈值。可以按照算法2检测一系列阈值。通过公式(7)可以区分强相关性。通常,L(x |θ)和L(x |θ)基于正态分布[28]。然而,正态分布可能无法拟合每个样本数据集。在金融领域,由于极值的存在,对数回报率的分布呈现出峰值和长尾的特征。

15
可人4 在职认证  发表于 2022-6-24 05:07:53
因此,我们需要找到其他分布0.1 0.2 0.3 0.4 0.5 0.6 0.7互信息等级051015202530整体相关性分布0.08 0.1 0.12 0.14 0.16 0.18 0.2 0.22 0.24弱相关性分布02468101-100B0.2 0.3 0.4 0.5 0.6 0.7 0.8互信息等级024681012强相关性正态分布C0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65共同等级信息024681012强相关性指数分布图2:近似股票“三一重工”数据频率的不同分布。A、 三一重工股票和其他股票之间总MI值的频率。B、 弱相关性分布。C、 使用正态分布来拟合强相关性。D、 使用指数分布来拟合强相关性。更准确地近似相关分布。我们应用几种类型的分布来测试相关频率,如正态分布、泊松分布、指数分布和瑞利分布。结果表明,对于强相关性,指数分布以最高的精度拟合数据。例如,图2展示了“三银实业”股票分布的比较。很明显,图2D中的指数分布比图2C中的正态分布更适合样本。然后,我们需要找出每个股票的断点。根据公式(5),区间(0.1、0.2)中的大多数阈值桩值小于0.1,只有少数阈值小于0.1,导致图中包含9981个链接。根据传销,逐步为每个股票选择强相关性。

16
何人来此 在职认证  发表于 2022-6-24 05:07:56
与传统阈值法构造的图相比,该网络更为均匀。应该注意的是,由于阈值较小,网络中存在大量边。4.4网络使用约束多重似然法为了减少前一小节中网络中的边数,应设计一种方法,以获得能够连接所有节点且具有良好度分布的优化网络。根据算法3,我们考虑将惩罚函数α×g(xi)作为嵌入似然函数的约束因子,以过滤出更多信息。在这项工作中,我们考虑以下函数α×g(xi)=αPn-1j=u+1(1- xi,j)(n-1Pn-1j=1xi,j)q,其中(0≤ α<1,q≥ 1). 随着α和q值的增加,图中包含的链接将减少。当α等于0时,此度量值等于MLM中的度量值。我们测试了q的不同值,发现当q值设置为2时,网络具有适当的度分布。图3提供了α从0增加到0.4的衍生网络的拓扑特性。当α从0增加到0.4时,阈值的平均值从0.1293增加到0.2745。随着图中边数的减少,平均度数会急剧下降。而α增加0.1 0.2 0.3 0.40.10.150.20.250.3平均阈值0.1 0.2 0.3 0.4050100150平均度0.1 0.2 0.3 0.41.522.533.5幂律指数0.1 0.2 0.3 0.40.60.81聚类系数图3:源自CMLM的股票网络拓扑特性。(A-D)分别显示由α的不同值确定的网络的平均度、排除节点数、幂律指数γ和聚类系数。0.01时,每个股票的链接平均下降15。平均而言,每个节点的链接数从132.1987下降到5.4702。

17
可人4 在职认证  发表于 2022-6-24 05:08:00
因此,网络结构随α的变化而变化,导致幂律指数在[1.5,3.5]范围内变化很大。当α取区间[0.22,0.4]中的值时,网络是无标度的。当边的数目越来越少时,幂律特性变得更加明显。此外,聚类系数与平均度有相似的趋势。然而,聚类系数变化较小,从0.9092降至0.4263。该方法能够实现更简单的拓扑,其中包含每个股票节点最相关的边。图4给出了使用基于α=0.3的CMLM方法的库存网络。请注意,此图无法在第十四天发布,但将在稍后发布。4.5派系的性质派系Km是m个节点的子集,其中每个节点直接连接子集中的其他节点【36,37】。同一集团中的股票比该集团以外的股票具有更强的相互影响。然后,我们研究了使用CMLM方法开发的网络中的派系(图4)。图中共有437个链接和77个派系,从3个元素到10个元素不等。公里(m≥ 5) 占派系总数的1/5,其余为3派系和4派系。我们首先从行业分类的角度研究派系。对派系的分析表明,工业部门存在高度同质化的趋势。据统计,77个派系中有34个派系包含同一部门的股票,34个派系由2个部门的股票组成,但只有9个派系包含3个部门的股票。表5列出了大集团的信息(m≥ 5).

18
可人4 在职认证  发表于 2022-6-24 05:08:03
最大的4个派系(m≥ 8) 包括属于金融部门的股票,7个集团中的一个由建筑部门的股票组成。为了研究派系的拓扑结构,我们接下来考虑一个名为“差异”的统计特性,即表5:派系信息Km(m≥ 5) K-派系数扇区(频率)10-派系1 FI(10)的平均MI差异0.5289 0.02259-派系2 FI(18)[0.4843,0.4991]0.02908-派系1 FI(8)0.4841 0.03737-派系3 FI(6),RE(1),MA(1),CO(13)[0.3844,0.4977][0.0486,0.0510]6-派系3 FI(12),MA(1),CO(5)[0.3704,0.4735][0.0680,0.0707]5-集团5 FI(15)、MA(4)、MINI(2),CO(4)[0.3868,0.4363][0.1010,0.1047]表6:Km(m=3)部门内团平均MI不平衡FI,WR,LBS 0.3735 0.3375ETGW,RE,WR 0.2897 0.3342ETGW,MA,IT 0.6631 0.3357MA,IT,LBS 0.2576 0.3396MA,RE,CSE 0.2130 0.3420MA,RE,IT 0.3162 0.3484RE,WR,AFAH 0.2682 0.3351a作为不平衡的平均值在集团内部测量,定义为y(i)=Xj6=i,j∈派系(MIijsi),(9),其中si=Pj6=i,j∈集团(MIij)。由于派系具有不同的相似性和差异范围,网络被检测为分层的。特别是,金融部门和建筑部门有着很强的相关性。最大平均相关系数为0.5289,出现在10个派系中,而最小平均相关系数为0.3704,出现在6个派系中。此外,这些派系的多样性很小。差值范围在[0.0225,0.1047]以内。集团越大,差距越小。对于来自不同部门的派系,表6显示只有七个3-派系属于三个不同的部门。这些派系的平均值相关性表明,取值差异很大[0.2130,0.6631],其差异接近三分之一。

19
nandehutu2022 在职认证  发表于 2022-6-24 05:08:06
集团间的大多数股票来自两个部门,如制造业、采矿业、房地产、批发和零售业以及信息技术部门。表5和表6表明,CMLM能够在不同的相关性水平上选择派系。调查期间,中国市场表现出强烈的同质集群。金融、建筑行业的股票更多地涉及更大的集团。相比之下,制造业、矿业、房地产、批发和零售业、信息技术部门的股票可能会形成小集团。金融部门拥有强大的部门内联系。制造业与其他行业的互动性更强。结合表5和表6的研究,我们还可以得出派系的主要特征。首先,大集团被证明具有相当大的同质性,因为它们具有很强的相关性,但差异很小。其次,部门间联系多见于小集团,只有3个集团的节点都属于不同的部门,有一定数量的链接。这些特征突出了不同部门在市场中的地位,金融机构部门在部门内具有很强的相关性,但对其他部门略有影响,MA、IT、WR和RE有更多跨部门的互动。派系可以充分体现股票投资组合中不同行业之间的相互作用。5结论本文研究了三种基于阈值的股票网络开发方法,并对网络结构进行了比较研究。我们的目标是构建一个包含所有具有清晰拓扑特性的节点的网络。利用上证180指数的样本数据,我们开发了基于传统阈值、MLM和CMLM方法的网络。

20
nandehutu2022 在职认证  发表于 2022-6-24 05:08:09
在传统阈值法的基础上进行了大量研究,该方法有利于股票之间的强关联,但也排除了节点,因为阈值值较大。为了解决这个问题,我们通过为每个股票节点提供一系列阈值来考虑网络。这样,我们可以与图中的所有节点保持强链接。为了简化网络,在Likelihood函数中添加了一个惩罚函数作为调节器。在这种情况下,更多信息在监管过程中被过滤掉。此外,它是链接和库存节点之间的良好平衡。总之,CMLM是一种有效的方法,可以提取有价值的信息并包括所有股票节点。未来的工作可能集中在惩罚函数的选择上,以获得更好的股票网络拓扑性质。参考文献【1】MEJ。纽曼,DJ。Watts,SH.Strogatz,《社交网络的随机图模型》。国家科学院学报(2002),2566-2572。内政部:10.1073/pnas。012582999。[2]M.Zou,S.Campos,《基于互信息和条件独立性测试的贝叶斯网络学习评分函数》,机器学习研究杂志7(7)(2006)2149-2187。内政部:10.1007/s10846-006-9082-0。[3] 注册护士。Mantegna,《金融市场的层次结构》,欧洲物理杂志B11(1999)193-197。内政部:10.1007/s100510050929。[4] M.Tumminello,TD。马特奥,T.阿斯特,RN。Mantegna,《在不同时间范围内采样的基于相关性的equityreturns网络》,欧洲物理杂志B 55(2006)209217。内政部:10.1140/epjb/e2006-00414-4。[5] R.Albert,AL.Barabasi,《复杂网络的统计力学》,《现代物理学评论》74(2001)47-97。内政部:10.1103/RevModPhys。74.47.[6] AL.Barabasi,R。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-10 07:38