1.最短距离法:类间距离定义为类中相距最近的样品间的距离。G_p,G_q合并为G_r,有距离递推公式D_rk=min{D_pk,D_qk}。
2.最长距离法:类间距离定义为类中相距最远的样品间的距离。有和最短距离法完全类似的递推公式。
3.中间距离法:类间距离取最长距离和最短距离之间的距离。通过向量运算得到中线递推公式:
\[{D_{rk}}^2=\frac{1}{2}({D_{pk}}^2+{D_{qk}}^2)+\beta {D_{pq}}^2\]
4.重心法:将类间距离定义为两类重心间的距离。每一类的重心就是属于样品的均值。
G_p,G_q合并为G_r,G_r的重心以及欧氏距离定义以及向量运算pq=kq-kp得到的递推公式:
\[\bar{X}^{(r)}=\frac{1}{n_r}(n_p\bar{X}^{(p)}+n_q\bar{X}^{(q)})\]
\[{D_{rk}}^2=\frac{n_p}{n_r}{D_{pk}}^2+\frac{n_q}{n_r}{D_{qk}}^2-\frac{n_p}{n_r}\frac{n_q}{n_r}{D_{pq}}^2\]
5.类平均法:应用广泛,聚类效果好,用两类样品两两之间平方距离的平均作为类之间的距离,即:
\[{D_{pq}}^2=\frac{1}{n_pn_q}\sum_{i \in G_p,j \in G_q}{d_{ij}}^2\]
距离递推公式是:
\[{D_{rk}}^2=\frac{n_p}{n_r}{D_{pk}}^2+\frac{n_q}{n_r}{D_{qk}}^2\]6.可变平均法:考虑类间距离的影响,将beta<1做为可变参数,当beta=0就是累平均法,当-1/3<=beta<=0且n_p=n_q时就是中间距离法;当n_p=n_q时就是下面介绍的可变法。G_p和G_q合并后的新类G_r与G_k的距离的进一步推广公式就是:
\[{D_{rk}}^2=(1-\beta)(\frac{n_p}{n_r}{D_pk}^2+\frac{n_q}{n_r}{D_qk}^2)+\beta {D_pq}^2\]
\beta 一般在实用中实用负数有比较好的效果。
7.可变法及McQuitty相似分析法(MCQ):重新定义递推公式为,
\[{D_{rk}}^2=\frac{(1-\beta)}{2}(\frac{n_p}{n_r}{D_pk}^2+\frac{n_q}{n_r}{D_qk}^2)+\beta {D_pq}^2\]
SAS中的cluster过程就使用beta=0的递推公式:
\[{D_{rk}}^2=\frac{{D_{pk}}^2+{D_{qk}}^2}{2}\]
8.离差平方和法(WARD):基于方差分析思想,如果分类正确,同类样品之间的离差平方和比较小,非同类样品之间的离差平方和比较大。
假设已将n个样本分为k个类,记为G1,G2,...,Gk,n_t表示G_t类的样品数目,\bar{X}^t表示G_t的重心,X_{(i)}^{(t)}表示Gt中第i个样品,那么得到Gt中样品的离差平方和:
\[W_t=\sum_{i=1}^{n_t}(X_{(i)}^{(t)}-\bar{X}^{t})'(X_{(i)}^{(t)}-\bar{X}^{(t)})\]
k个类的总离差平方和为:
\[W=\sum_{t=1}^{k}W_t=\sum_{t=1}^{k}\sum_{i=1}^{n_t}(X_{(i)}^{(t)}-\bar{X}^{(t)})'(X_{(i)}^{(t)}-\bar{X}^{(t)})\]
当k固定时,要选择使W达到极小的分类。下面介绍ward算法:
首先将n个样品各自成一类,此时W=0;然后每次将其中两类合并为一类,因每缩小一小类离差平方和就要增加,那么每次选择使得W增加最小的两类进行合并,直至所有样品为一类为止。Ward算法吧两类合并后增加的离差平方和看成为类间的平方距离,即令{D_{pq}}^2=Wr-(Wp+Wq)表示类Gp和Gq之间的平方距离,其中Gr={Gp,Gq},Wr,Wp,Wq分别是Gr,Gp,Gq类中样品的离差平方和。用p,q两类的重心表示新类r的重心:
\[{\bar{X}}^{(r)}=\frac{1}{n_r}(n_p {\bar{X}}^{(p)}+n_q{\bar{X}}^{(q)})\]
在SAS软件中CLUSTER过程中还给出3中聚类方法:最大似然浦西聚类法(EML),密度估计法(DEN),两阶段密度估计法(TWO).