|
然后将兰德指数定义为a和b之和,并通过X:R(Y,Y)中的总对数进行标准化≡2(a+b)N(N)- 1) =kXi=1lXj=1米吉. (8) 然后,我们使用广义超几何分布作为与两个独立聚类相关的零假设,并将调整后的兰德指数定义为零假设下兰德指数与其平均值之间的差异,通过这种差异可以达到的最大值进行归一化:Radj(Y,Y)≡Pki=1Plj=1米吉- t(t+t)- t、 (9)式中t=kXi|易|, t=lXj|Yj|, t=2Tn(N- 1). (10) 我们有拉杰∈ [-1,1],其中1对应于相同聚类的情况,0对应于两个完全相关的聚类。相反,负值显示Y和Y之间的反相关(即,Y和Y以相同方式分类的成对数小于假设两个聚类之间随机重叠的预期数)。集群产业过度表达的超几何检验调整后的兰德指数提供了集群划分和产业分类之间相似性的总体衡量标准。为了分析每个产业部门被每个集群回收了多少,我们必须分别查看给定集群和给定部门内的存量,并测量共同的存量数量。如果一个集群和一个工业部门之间的共同存量百分比敏感地高于社区随机重叠的预期值,则表明该集群过度表达了一个特定部门。为了量化这种过度表达,我们使用了统计单尾假设检验,其中零假设是超几何分布,它描述了两个给定大小的群体在N原子上随机拥有共同k个对象的概率[36,37]。特别是,让我们把Yia集群称为我们的集群和Yja部门。我们想验证Yi是否过度表达Yj。
|