楼主: EchoEstelle
19161 1

[数据挖掘理论与案例] 四种聚类分析中确定类个数的方法 [推广有奖]

  • 0关注
  • 31粉丝

教授

56%

还不是VIP/贵宾

-

威望
0
论坛币
6772 个
通用积分
1.2139
学术水平
220 点
热心指数
149 点
信用等级
90 点
经验
22842 点
帖子
498
精华
7
在线时间
839 小时
注册时间
2010-3-10
最后登录
2016-7-20

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
1.由适当的阈值确定:
2.根据数据点的散布图直观地确定类的个数:
3.根据统计量确定分类个数:
(1)R^2统计量:类间的离差平方和所占比例越大,类内的离差平方和比例越小,证明分类效果越好,R^2统计量就是使用类间的离差平方和占所有的离差平方和的比例。
(2)半偏R^2统计量:k+1次合并类后的R^2统计量与k次合并后R^2统计量的差值。
(3)伪F统计量:\[G_t类样品中n_t个样本的离差平方和:W_t=\sum_{i=1}^{n_t}(X_{(i)}^{(t)}-{\bar{X}}^{(t)})'(X_{(i)}^{(t)}-{\bar{X}}^{(t)})\]
\[所有样品的总离差平方和T=\sum_{t=1}^{k}\sum_{i=1}^{n_t}(X_{(i)}^{(t)}-\bar{X})'(X_{(i)}^{(t)}-\bar{X})\]
\[所有k个分类下各自样本离差平方和的和:P_k=\sum_{t=1}^{k}W_t\]
\[表示类间偏差平方和:B_k=\sum_{t=1}^{k} n_t({\bar{X}}^{(t)}-\bar{X})'({\bar{X}}^{(t)}-\bar{X})\]
\[R^2统计量:\frac{B_k}{T}=1-\frac{P_k}{T} \]
\[合并类G_k与G_L成G_M后类内离差平方和增值:{B_{KL}}^2=W_M-(W_K+W_L)\]
\[半偏R^2统计量:{B_{KL}}^2/T={R_{k+1}}^2-{R_k}^2\]
\[伪F统计量:伪F_k=\frac{(T-P_k)/(k-1)}{P_k/(n-k)}=\frac{B_k}{P_k}\frac{n-k}{k-1}\]
(4)伪t^2统计量:不具有t^2那样的分布性质
\[伪t^2=\frac{{B_{KL}}^2}{(W_K+W_L)/(n_K+n_L-2)}\]
4.根据谱系图确定分类个数的准则:
A.各类重心的距离必须很大
B.确定的类中,各类所包含的元素都不要太多
C.类的个数必须符合实用目的
D.若采用集中不同的聚类方法处理,则在各自的聚类途中因发现相同的类。

考虑将重心转移到不同集合来考察离差组成的关系,有总的离差和,类上的离差和,类重组导致的离差和的变更等等。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:聚类分析 总离差平方和 LaTeX atex Late 统计

我非我见我释我是我非我
沙发
420948492 发表于 2015-2-20 10:15:06 来自手机 |只看作者 |坛友微信交流群
EchoEstelle 发表于 2015-2-19 21:34
1.由适当的阈值确定:
2.根据数据点的散布图直观地确定类的个数:
3.根据统计量确定分类个数:
谢谢分享

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-2 02:05