1.由适当的阈值确定:
2.根据数据点的散布图直观地确定类的个数:
3.根据统计量确定分类个数:
(1)R^2统计量:类间的离差平方和所占比例越大,类内的离差平方和比例越小,证明分类效果越好,R^2统计量就是使用类间的离差平方和占所有的离差平方和的比例。
(2)半偏R^2统计量:k+1次合并类后的R^2统计量与k次合并后R^2统计量的差值。
(3)伪F统计量:\[G_t类样品中n_t个样本的离差平方和:W_t=\sum_{i=1}^{n_t}(X_{(i)}^{(t)}-{\bar{X}}^{(t)})'(X_{(i)}^{(t)}-{\bar{X}}^{(t)})\]
\[所有样品的总离差平方和T=\sum_{t=1}^{k}\sum_{i=1}^{n_t}(X_{(i)}^{(t)}-\bar{X})'(X_{(i)}^{(t)}-\bar{X})\]
\[所有k个分类下各自样本离差平方和的和:P_k=\sum_{t=1}^{k}W_t\]
\[表示类间偏差平方和:B_k=\sum_{t=1}^{k} n_t({\bar{X}}^{(t)}-\bar{X})'({\bar{X}}^{(t)}-\bar{X})\]
\[R^2统计量:\frac{B_k}{T}=1-\frac{P_k}{T} \]
\[合并类G_k与G_L成G_M后类内离差平方和增值:{B_{KL}}^2=W_M-(W_K+W_L)\]
\[半偏R^2统计量:{B_{KL}}^2/T={R_{k+1}}^2-{R_k}^2\]
\[伪F统计量:伪F_k=\frac{(T-P_k)/(k-1)}{P_k/(n-k)}=\frac{B_k}{P_k}\frac{n-k}{k-1}\]
(4)伪t^2统计量:不具有t^2那样的分布性质
\[伪t^2=\frac{{B_{KL}}^2}{(W_K+W_L)/(n_K+n_L-2)}\]
4.根据谱系图确定分类个数的准则:
A.各类重心的距离必须很大
B.确定的类中,各类所包含的元素都不要太多
C.类的个数必须符合实用目的
D.若采用集中不同的聚类方法处理,则在各自的聚类途中因发现相同的类。
考虑将重心转移到不同集合来考察离差组成的关系,有总的离差和,类上的离差和,类重组导致的离差和的变更等等。