楼主: EchoEstelle
12621 2

[数据挖掘理论与案例] 八种样本类之间的距离 [推广有奖]

  • 0关注
  • 31粉丝

教授

56%

还不是VIP/贵宾

-

威望
0
论坛币
6772 个
通用积分
1.2139
学术水平
220 点
热心指数
149 点
信用等级
90 点
经验
22842 点
帖子
498
精华
7
在线时间
839 小时
注册时间
2010-3-10
最后登录
2016-7-20

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
1.最短距离法:类间距离定义为类中相距最近的样品间的距离。G_p,G_q合并为G_r,有距离递推公式D_rk=min{D_pk,D_qk}。
2.最长距离法:类间距离定义为类中相距最远的样品间的距离。有和最短距离法完全类似的递推公式。
3.中间距离法:类间距离取最长距离和最短距离之间的距离。通过向量运算得到中线递推公式:
\[{D_{rk}}^2=\frac{1}{2}({D_{pk}}^2+{D_{qk}}^2)+\beta {D_{pq}}^2\]
4.重心法:将类间距离定义为两类重心间的距离。每一类的重心就是属于样品的均值。
                 G_p,G_q合并为G_r,G_r的重心以及欧氏距离定义以及向量运算pq=kq-kp得到的递推公式:
\[\bar{X}^{(r)}=\frac{1}{n_r}(n_p\bar{X}^{(p)}+n_q\bar{X}^{(q)})\]
\[{D_{rk}}^2=\frac{n_p}{n_r}{D_{pk}}^2+\frac{n_q}{n_r}{D_{qk}}^2-\frac{n_p}{n_r}\frac{n_q}{n_r}{D_{pq}}^2\]
5.类平均法:应用广泛,聚类效果好,用两类样品两两之间平方距离的平均作为类之间的距离,即:
\[{D_{pq}}^2=\frac{1}{n_pn_q}\sum_{i \in G_p,j \in G_q}{d_{ij}}^2\]
                    距离递推公式是:
\[{D_{rk}}^2=\frac{n_p}{n_r}{D_{pk}}^2+\frac{n_q}{n_r}{D_{qk}}^2\]6.可变平均法:考虑类间距离的影响,将beta<1做为可变参数,当beta=0就是累平均法,当-1/3<=beta<=0且n_p=n_q时就是中间距离法;当n_p=n_q时就是下面介绍的可变法。G_p和G_q合并后的新类G_r与G_k的距离的进一步推广公式就是:
\[{D_{rk}}^2=(1-\beta)(\frac{n_p}{n_r}{D_pk}^2+\frac{n_q}{n_r}{D_qk}^2)+\beta {D_pq}^2\]
\beta 一般在实用中实用负数有比较好的效果。
7.可变法及McQuitty相似分析法(MCQ):重新定义递推公式为,
\[{D_{rk}}^2=\frac{(1-\beta)}{2}(\frac{n_p}{n_r}{D_pk}^2+\frac{n_q}{n_r}{D_qk}^2)+\beta {D_pq}^2\]
SAS中的cluster过程就使用beta=0的递推公式:
\[{D_{rk}}^2=\frac{{D_{pk}}^2+{D_{qk}}^2}{2}\]
8.离差平方和法(WARD):基于方差分析思想,如果分类正确,同类样品之间的离差平方和比较小,非同类样品之间的离差平方和比较大。
       假设已将n个样本分为k个类,记为G1,G2,...,Gk,n_t表示G_t类的样品数目,\bar{X}^t表示G_t的重心,X_{(i)}^{(t)}表示Gt中第i个样品,那么得到Gt中样品的离差平方和:
\[W_t=\sum_{i=1}^{n_t}(X_{(i)}^{(t)}-\bar{X}^{t})'(X_{(i)}^{(t)}-\bar{X}^{(t)})\]
k个类的总离差平方和为:
\[W=\sum_{t=1}^{k}W_t=\sum_{t=1}^{k}\sum_{i=1}^{n_t}(X_{(i)}^{(t)}-\bar{X}^{(t)})'(X_{(i)}^{(t)}-\bar{X}^{(t)})\]
当k固定时,要选择使W达到极小的分类。下面介绍ward算法:
首先将n个样品各自成一类,此时W=0;然后每次将其中两类合并为一类,因每缩小一小类离差平方和就要增加,那么每次选择使得W增加最小的两类进行合并,直至所有样品为一类为止。Ward算法吧两类合并后增加的离差平方和看成为类间的平方距离,即令{D_{pq}}^2=Wr-(Wp+Wq)表示类Gp和Gq之间的平方距离,其中Gr={Gp,Gq},Wr,Wp,Wq分别是Gr,Gp,Gq类中样品的离差平方和。用p,q两类的重心表示新类r的重心:
\[{\bar{X}}^{(r)}=\frac{1}{n_r}(n_p {\bar{X}}^{(p)}+n_q{\bar{X}}^{(q)})\]
在SAS软件中CLUSTER过程中还给出3中聚类方法:最大似然浦西聚类法(EML),密度估计法(DEN),两阶段密度估计法(TWO).





二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:LaTeX atex Late beta 欧氏距离 样本

我非我见我释我是我非我
沙发
soccy 发表于 2015-2-17 20:35:15 |只看作者 |坛友微信交流群
公式看不到

使用道具

藤椅
soccy 发表于 2015-2-17 20:36:14 |只看作者 |坛友微信交流群
latent class clustering算哪种?

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-27 08:37