发帖

楼主: EchoEstelle

12621 2

[数据挖掘理论与案例] 八种样本类之间的距离 [推广有奖]

0关注
31粉丝

教授

56%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 6772 个
通用积分: 1.2139
学术水平: 220 点
热心指数: 149 点
信用等级: 90 点
经验: 22842 点
帖子: 498
精华: 7
在线时间: 839 小时
注册时间: 2010-3-10
最后登录: 2016-7-20

楼主

EchoEstelle 发表于 2015-2-17 02:13:16 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

1.最短距离法：类间距离定义为类中相距最近的样品间的距离。G_p,G_q合并为G_r,有距离递推公式D_rk=min{D_pk,D_qk}。
2.最长距离法：类间距离定义为类中相距最远的样品间的距离。有和最短距离法完全类似的递推公式。
3.中间距离法：类间距离取最长距离和最短距离之间的距离。通过向量运算得到中线递推公式：
\[{D_{rk}}^2=\frac{1}{2}({D_{pk}}^2+{D_{qk}}^2)+\beta {D_{pq}}^2\]
4.重心法：将类间距离定义为两类重心间的距离。每一类的重心就是属于样品的均值。
               G_p,G_q合并为G_r，G_r的重心以及欧氏距离定义以及向量运算pq=kq-kp得到的递推公式：
\[\bar{X}^{(r)}=\frac{1}{n_r}(n_p\bar{X}^{(p)}+n_q\bar{X}^{(q)})\]
\[{D_{rk}}^2=\frac{n_p}{n_r}{D_{pk}}^2+\frac{n_q}{n_r}{D_{qk}}^2-\frac{n_p}{n_r}\frac{n_q}{n_r}{D_{pq}}^2\]
5.类平均法：应用广泛，聚类效果好，用两类样品两两之间平方距离的平均作为类之间的距离，即：
\[{D_{pq}}^2=\frac{1}{n_pn_q}\sum_{i \in G_p,j \in G_q}{d_{ij}}^2\]
                  距离递推公式是：
\[{D_{rk}}^2=\frac{n_p}{n_r}{D_{pk}}^2+\frac{n_q}{n_r}{D_{qk}}^2\]6.可变平均法：考虑类间距离的影响，将beta<1做为可变参数，当beta=0就是累平均法，当-1/3<=beta<=0且n_p=n_q时就是中间距离法；当n_p=n_q时就是下面介绍的可变法。G_p和G_q合并后的新类G_r与G_k的距离的进一步推广公式就是：
\[{D_{rk}}^2=(1-\beta)(\frac{n_p}{n_r}{D_pk}^2+\frac{n_q}{n_r}{D_qk}^2)+\beta {D_pq}^2\]
\beta 一般在实用中实用负数有比较好的效果。
7.可变法及McQuitty相似分析法(MCQ)：重新定义递推公式为，
\[{D_{rk}}^2=\frac{(1-\beta)}{2}(\frac{n_p}{n_r}{D_pk}^2+\frac{n_q}{n_r}{D_qk}^2)+\beta {D_pq}^2\]
SAS中的cluster过程就使用beta=0的递推公式：
\[{D_{rk}}^2=\frac{{D_{pk}}^2+{D_{qk}}^2}{2}\]
8.离差平方和法(WARD)：基于方差分析思想，如果分类正确，同类样品之间的离差平方和比较小，非同类样品之间的离差平方和比较大。
   假设已将n个样本分为k个类，记为G1,G2,...,Gk,n_t表示G_t类的样品数目，\bar{X}^t表示G_t的重心，X_{(i)}^{(t)}表示Gt中第i个样品，那么得到Gt中样品的离差平方和：
\[W_t=\sum_{i=1}^{n_t}(X_{(i)}^{(t)}-\bar{X}^{t})'(X_{(i)}^{(t)}-\bar{X}^{(t)})\]
k个类的总离差平方和为：
\[W=\sum_{t=1}^{k}W_t=\sum_{t=1}^{k}\sum_{i=1}^{n_t}(X_{(i)}^{(t)}-\bar{X}^{(t)})'(X_{(i)}^{(t)}-\bar{X}^{(t)})\]
当k固定时，要选择使W达到极小的分类。下面介绍ward算法：
首先将n个样品各自成一类，此时W=0；然后每次将其中两类合并为一类，因每缩小一小类离差平方和就要增加，那么每次选择使得W增加最小的两类进行合并，直至所有样品为一类为止。Ward算法吧两类合并后增加的离差平方和看成为类间的平方距离，即令{D_{pq}}^2=Wr-(Wp+Wq)表示类Gp和Gq之间的平方距离，其中Gr={Gp,Gq},Wr,Wp,Wq分别是Gr,Gp,Gq类中样品的离差平方和。

用p,q两类的重心表示新类r的重心：
\[{\bar{X}}^{(r)}=\frac{1}{n_r}(n_p {\bar{X}}^{(p)}+n_q{\bar{X}}^{(q)})\]
在SAS软件中CLUSTER过程中还给出3中聚类方法：最大似然浦西聚类法(EML),密度估计法(DEN),两阶段密度估计法(TWO).

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏1 回帖

关键词：LaTeX atex Late beta 欧氏距离样本

[数据挖掘理论与案例] 八种样本类之间的距离 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本版微信群

[数据挖掘理论与案例] 八种样本类之间的距离 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本版微信群

扫码加我拉你入群