楼主: 大多数88
902 31

[量化金融] 日本核桃结构中的等级群落 [推广有奖]

11
能者818 在职认证  发表于 2022-6-10 14:01:40
社区检测网络分为模块。这一过程使我们能够对这种复杂网络的结构有一个粗粒度的视图。通过比较与原始网络分布程度相同的部分,将网络划分为社区的最常用方法之一。然而,众所周知,模块化方法在应用于大型网络时遇到了一个称为分辨率限制的问题。也就是说,优化模块化无法检测出小社区,即使它们定义良好,例如小团体。地图方程法是用于检测网络中社区的另一种方法。根据map方程,该方法被定义为L(C)=qyH(C)+mXi=1pi,是性能最好的社区检测信息理论方法之一H(Pi)。(2) 这里,L(C)测量arandom walker通过给定节点分区C={C,····,C`}的网络节点之间的链接迁移的动力学的每一步平均描述长度,该分区由两部分组成。第一项来自随机行走者在社区间的移动,其中Qi是随机行走者切换社区的概率,H(C)是香农熵给出的社区索引码字的平均描述长度。第二项产生于社区内随机步行者的运动,其中PI是社区Ci内移动的百分比,H(Pi)是模块代码本i中码字的中心。如果网络有密集连接的部分,其中随机行走者停留时间较长,人们可以通过使用两级码本来压缩网络中随机行走动力学的描述长度,该码本用于适应诸如“main street”等社区街道名称的节点【11】。

12
nandehutu2022 在职认证  发表于 2022-6-10 14:01:43
因此,在映射方程框架中获得最佳社区分解相当于搜索使平均描述长度L(C)最小的节点划分。对于分辨率极限问题,任何包括map方程在内的两级社区检测算法都无法消除这一限制。最近的理论分析[19]。在实践中,这对于我们的网络来说是正确的,稍后将对此进行论证。近年来,原映射方程方法已推广到多尺度非均匀网络。一个网络被分解成多个模块,这些模块包括它们的子模块,然后是它们的子模块等等。层次映射方程(Hierarchy mapequation)[12]通过使用可能的层次划分最小化描述长度,递归地搜索这样的多级解决方案。用于网络社区检测的映射方程框架现在更加强大。因此,我们用这种方法分析了生产网络。分层映射方程算法的代码可在http://www.mapequation.org.8/38Note本研究仅考虑网络中节点的社区标识。也就是说,每个节点都属于每个层次结构级别上的唯一社区。然而,由于日立和东芝等少数大型企业集团的业务多样性,这种社区分配可能对它们的限制太大。映射方程非常灵活,可以检测网络的重叠社区结构,其中任何节点都可以是多个社区的成员[20]。然而,我们使用原始算法作为获得公司间交易数据完整帐户的初始步骤。社区和子社区中的过度表达大多数现实世界的网络都有一个社区结构[21]。这些社区是在基于同性原则的网络中形成的【22】。

13
mingdashike22 在职认证  发表于 2022-6-10 14:01:46
这一原理表明节点有与其他类似节点连接的趋势。例如,在我们的社会中观察到种族隔离[23],生物功能在蛋白质-蛋白质相互作用网络中社区的形成中起着关键作用[24],股票市场的社区结构与其经济部门的社区结构相似[25]。通过以下方法,我们发现属性在生产网络社区结构的形成中起着至关重要的作用。我们按照[26]中使用的程序确定社区内不同位置和部门的统计显著性过度表达。这种方法是从基因本体数据库特定术语中基因过度表达的统计验证发展而来的【27】。在此过程中,超几何分布h(X | N,NC,NQ)用于测量大小为NC的X随机选择的节点独立社区C将具有属性Q的概率。超几何分布h(X | N,NC,NQ)可以写成asH(X | N,NC,NQ)=NCX公司N-NCNQ公司-十、NNQ公司, (3) 其中nqis是系统中具有attributeQ的元素总数。此外,可以通过以下关系将p值p(NC,Q)与社区cw中具有属性Q的NC,Qnodes相关联:p(NC,Q)=1-NC,Q-1XX=0H(X | N,NC,NQ)。(4) 如果发现p(NC,Q)低于某个阈值pc,则属性Q在社区C中过度表达。由于我们使用多假设检验,我们需要适当选择以排除假阳性。我们假设pc=0.01/NA,如【26】所述,其中包括Bonferroni校正【28】。这里,NArepresents表示系统所有节点的不同属性的总数(在我们的研究中,我们有NA=9个区域属性)。9/38结果社区层次结构图4。

14
mingdashike22 在职认证  发表于 2022-6-10 14:01:49
社区的等级结构第n级的五个等级社区与第(n+1)级的子社区数量成正比。通过使用Infomap方法【11,12】,我们发现社区具有一种层级结构,如表3所示,并确定了每一层级的公司数量。这种层级结构如图4所示,其中第二级社区按照社区规模(公司数量)从左到右按降序排列,三角形的宽度反映了每个社区中的子社区数量。我们发现,大多数子单元位于第二级,大多数公司(94%)属于第二级社区。与一级和二级社区相比,三至五级社区的重要性不显著。因此,我们将对(子)社区属性的讨论限制在第二层。过去关于层次映射方程在现实网络中应用的研究【12,19】表明,密集网络在最精细的层次上有较大的社区,层次较浅,而稀疏网络往往有较深的层次。还可以观察到,由于道路网络具有地理限制,从而减少了网络不同部分之间的短切数,因此层次的深度增加了一个级别【12】。在我们的生产网络中,我们观察到一个相对较浅的层次结构,因为它没有如此严格的约束。我们将整个网络的层次分解可视化为社区及其子单元,如图5所示。三维空间中节点的配置与图2中的配置相同。

15
何人来此 在职认证  发表于 2022-6-10 14:01:54
我们可以看到,该网络极为复杂。如后续小节所述,第一和第二级的主要社区以工业部门和地区为特征。为了使下面关于社区的讨论透明化,让我们采用以下索引惯例:在层次树结构的顶级模块级别,社区按其规模排名(社区中的公司数量)进行索引。因此,最高级别的最大社区被表示为“C”。在较低级别,大小的排名添加在“:”之后。例如,社区“C1:5”10/38图5。将整个网络分层分解为社区和子单元。此面板(a)以不同的颜色突出显示topmodular级别的6个最大社区。如图(b)至(g)所示,每个社区进一步分解为子社区,其中突出显示了第一大到第六大社区中的第六大子社区。是属于最大顶级社区C的所有二级社区中第五大二级社区。一级社区互补累积函数D(s)表示顶级社区中规模至少为s的部分,如图6所示。分布的双峰性质体现了分辨率极限问题。少数社区主导整个系统。例如,在检测到的约200个社区中,有11/38表3。模块级统计级别#com#irr。公司比率(%)1 209 106 830 0.0782 65、303 60、603 998267 93.6433 18、271 17、834 61748 5.7924 1、544 1539 5168 0.4855 10 10 24 0.0022使用多重编码信息地图方法的社区检测结果总计80092 1066037 100.00。

16
何人来此 在职认证  发表于 2022-6-10 14:01:56
“#com”是所有社区的数目,“#irr.com”是不可约社区的数目,这些社区没有任何子社区。“#事务所”是指不可约社区中事务所的数量。最大的社区包含100000-200000家事务所。然而,如此巨大的统一方式。这个过程与基于模块性的社区检测有很大不同。可以通过递归地应用模块化最大化方法来解决这个问题;社区被视为可以进一步分解的分离子网。然而,这一过程缺乏坚实的基础,因为它使用不同的零模型来分解子网络【21】。S1附录中提供了这两种方法之间更详细的比较。图6:。最高模块级社区规模s的互补累积分布函数D(s)。map方程是一种可用于将有向网络划分为社区的方法,其中节点在两个方向上紧密连接。由于网络的性质,因此检测到的跨社区流量应偏向另一个方向。图7证实了这一预期。量化链路的极化率12/38图7。顶层社区互连链路方向的极化率。在这里,选出了51个主要社区,其中有1000多家公司。上图绘制了社区i和j之间链接的极化率| Pij |与其组成链接的总数量lij。虚线曲线显示了给定总成分数的群落间连锁的极化率对应于2σ的显著性水平,其中单个连锁的随机方向被采用为零模型;标准偏差σ见公式(6)。

17
可人4 在职认证  发表于 2022-6-10 14:01:59
下图是LijiIntercommunity链接频率的柱状图,该链接的| Pij |高于(低于)统计显著性检验的阈值。在一对社区之间,我们引入了由pij=Aij定义的极化率- AjiAij+Aji,(5)其中Aijis是从社区i到社区j的链接总数,Ajiandthat是相对链接。如果群落i和j之间的联系完全极化,则Pijbecomes±1取决于其方向;如果悬挂机构平衡,则Pij=0。如果我们假设链接在其方向上没有偏好作为无效假设,那么无效模型预测社区i和j之间连接的极化率在0左右波动,标准偏差σ由σ=pLij给出,(6)13/38,其中lij=Aij+ajis是两个社区之间链接的总数。如果weLij≥在统计上有意义的极化占其总数的86.7%。Lij对应的社区间联系份额为70.1%≥ 10、相对于社区间链接的随机定向模型,拥有100条以上链接的社区之间的大多数连接都存在明显的两极分化。我们发现这些属性在一级群落中的过度表达决定了在此类群落形成中起关键作用的因素。我们的研究同时考虑了位置和行业属性。位置属性分为9个区域,部门属性分为20个分区。表4列出了第六大一级社区及其过度表达属性的详细信息。我们还使用了更精细的分类,即47个县和99个主要部门,其结果见S1附录。我们观察到过度表达区和过度表达区之间存在着巨大的联系。

18
大多数88 在职认证  发表于 2022-6-10 14:02:02
在最大的社区中,主要是制造业和高度城市化地区(关东、东京、中部和关西)过度表达。第二大社区显示,主要是农业和食品行业(见SI)和农村地区(北海道、东北、四国和冲绳九州)过度表达。就第三大社区的过度表达而言,建筑行业占主导地位,相应的过度表达区域表明这些公司主要位于关东和东京。运输和批发零售业是第四大社区的主导属性,东北、关东和中部是过度表达的区域。第五大社区主要包括东京,主要过度表达的部门是信息和通信、科学研究以及专业和技术服务。第六大社区主要包括医药和医疗保健。总结一下,以下是六大社区的特征:o最大社区:制造业o第二大社区:食品业o第三大社区:建筑业o第四大社区:批发和零售业o东京o第六大社区:医疗保健图8是图2所示网络的粗粒度图,其中,顶层最大的50个社区由节点表示,在任一方向上连接它们的直接链接被捆绑成箭头。我们在三维空间中使用了以下和OUT组件。由此获得的三个中心确定了图纸的二维平面。

19
kedemingshi 在职认证  发表于 2022-6-10 14:02:07
其次,我们固定水平轴,以最佳方式表示通过GSCC从IN(左侧)组件到OUT(右侧)组件的流动方向;事实上,他们将主要社区投影到二维平面上,将主要社区布置到二维平面上。最后,我们通过使用有关这些社区之间链接的信息来连接这些社区。水平线上的群落位置清楚地反映了核桃结构的特征,如表4所示。在614/38图8中。由50个最大的顶级社区组成的网络。majorcommunities被描述为节点,其大小按相应社区的大小进行缩放。将一对节点连接在同一方向上的有向链接束由箭头表示,箭头的宽度与其链接总数成正比。表4:。GSCC OUT1 175150 7135 Kanto一级社区指数规模#subcom地区部门的过度表达(0.21);东京(0.14);Chubu(0.22);关西(0.21)制造业(0.33);0.20 0.65 0.142 126997 5455北海道(0.07);东北(0.11);四国(0.05);冲绳Kyusyu(0.13)(0.02)0.11 0.46 0.403 96062 7339关东(0.48);东京(0.25)(0.09);科学研究(0.06);0.39 0.38 0.164 87647 2660东北(0.11);关东(0.22);Chubu(0.20)nance(0.05);服务业,北海道(0.17)0.11 0.43 0.445 63611 3631东京(0.40)(0.07)0.26 0.45 0.266 47、759 6214北海道(0.06);东京(0.22);楚国(0.08);四国(0.05);冲绳Kyusyu(0.13)相关(0.05);Medical(0.48)0.24 0.21 0.52“#sub com”是每个一级社区中包含的子单元总数。第六大社区1级区域和部门划分的过度表达。具有特定属性的节点的百分比用括号表示。

20
大多数88 在职认证  发表于 2022-6-10 14:02:15
小于0.01的未列出。此外,还列出了每个社区的In、GSCC和OUT组件的百分比。15/38最左侧的平均浓度。另一方面,向外集中度最大的第六社区位于最右侧。第二和第四社区由OUT组件主导,也位于右侧。具有过量GSCC成分的第一个社区位于第三个社区和过量社区之间。第5个群落的组成非常接近平均群落,处于核桃结构的中间。其余相对较小的社区大多位于左侧。这种配置是可以理解的,因为IN和GSCC组件倾向于形成integratedcommunities,稍后将显示这一点。二级社区在第二级,一些顶级社区被分解为几个亚社区,如S1附录中的表D和表E所示。图9绘制了该水平上群落规模的累积分布。我们使用最大似然估计(MLE)[29]定量拟合CCDF尾部的统计显著幂律衰减,其函数形式为~ s-γ+1,γ=2.50±0.02。结果表明,社区的规模具有高度的异质性,跨越数个数量级。图9:。(color online)规模为s的社区在第二模块级的互补累积分布函数。使用最大似然估计技术对数据(红线)进行幂律拟合~ s-γ+1,γ=2.50±0.02,smin=28.2±7.6,p值=0.976。我们还分析了所选亚单位的过度表达。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-3 00:44