Stata提供了三种系统聚类的方法:即最短距离法(single linkage)、最长距离法(complete linkage)和类平均法(average linkage)。
Stata用于系统聚类的命令为:
cluster 聚类方法选项 变量名 [,选择项]
其中,聚类方法选项有:s,代表最短距离法;c,代表最长距离法;a,代表类平均法。三种方法可任选其一。选择项有:
name(clname) /* 指定聚类过程的名称
distance_option /* 指定刻划样品间相似性程度的指标(距离、相关系数等)
generate(stub) /* 指定系统变量的前缀
其中,stata提供了21种distance_option选项(适用于连续性资料的共7种,适用于二分类资料的共14种)。适用于连续性资料的距离或相似系数有:
L2 /* 欧氏距离,为默认选项。也可用 Euclidean或L(2)表示
L1 /* 绝对值距离。也可用absolute、cityblock、manhattan或L(1)表示
Linfinity /* 最大值距离。也可用maximum表示
L(#) /* 明氏距离
Canberra /* 兰氏距离
correlation /* Pearson相关系数
angular或angle /* 夹角余弦
适用于二分类资料的距离有:
matching /* 匹配相似系数
Yule /* Yule相似系数
Pearson /* 点相关系数