|
蓝色符号表示在20次独立运行中,在最佳模块化分区中获得的集群数量。具体地说,我们把NTI称为Cti中的元素数,nt+1j称为Ct+1jandnt中的元素数,t+1j称为Cti和Ct+1j之间的公共元素数。让我们称之为Nt,t+1两个连续周期t和t+1中不同顶点的数量。由超几何分布H(nt,t+1ij | nt,t+1,nti,nt+1j)给出了偶然观测到的nt,t+1ij的概率,其中:H(X | N,M,K)=MXN-迈克科尔斯-十、NK. (1) 因此,对于每对簇,我们可以计算p值pt,t+1ij=1-nt,t+1ij-1Xx=0H(x | Nt,t+1,nti,Nt+1j)。(2) 在设置适当的p值阈值pt后,上述方法为我们提供了一种方法,以统计稳健的方式选择t+1年与t年给定社区相关的社区。为了避免出现假阳性,必须校正pvalue阈值,以考虑我们正在进行多假设测试比较。事实上,对于每一对连续周期,我们进行Nt·Nt+1次检验,以验证元素在连续周期的两个社区分区之间随机分布的无效假设。此外,我们对数据集中的所有连续年份(即1980年至2011年)进行了这些测试。最具限制性的多重假设检验校正是Bonferroni校正,该校正规定修改后的p值阈值pBis:pB=pt/2011-1Xt=1980Nt·Nt+1. (3) 在目前的调查中,我们将pt设为0.01。在图3中,我们展示了连续几年经统计验证的社区相互关系的图形表示。图示是1980年最大社区(标记为980)的时间演变。每个顶点的大小与社区大小的对数成正比。
|