楼主: mayshen008
47107 17

[问答] 使用K-means聚类分析如何确定最优分类? [推广有奖]

  • 1关注
  • 0粉丝

高中生

30%

还不是VIP/贵宾

-

威望
0
论坛币
487 个
通用积分
1.0000
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
315 点
帖子
22
精华
0
在线时间
15 小时
注册时间
2013-3-5
最后登录
2024-1-24

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
对于大样本量使用K-means聚类分析。自己设定了2-6类,但是不确定分几类最优。
不少说用使用方差分析的显著性检验。

可是我看到一篇文献讲的是用另外一种kappa一致性检验,但是具体如何操作不明白,希望有高手能解释一下!
PS: 文献其中讲的大概内容是将样本随机平均分为A和B, 然后对A进行K-means,好像得到什么距离;
   再利用得到的距离对B使用K-means, 以及直接对B使用K-means。将这两种情形下对B得出的分类进行kappa一致性检验。
    最有比较2~6类情形下几种kappa系数,最高的对应分类最优
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:k-means聚类 k-means means 聚类分析 mean 如何

沙发
602dxz 发表于 2013-3-17 18:59:03 |只看作者 |坛友微信交流群
哪一种从理论与经验上说得通就选那一种,这个是你个人给出答案软件是给不出最佳答案的。统计检验最多就是给你个参考,一般会做类别间与类别内的方差检验,以及判别分析检验,不过一般都差别不大。

使用道具

藤椅
602dxz 发表于 2013-3-17 20:23:05 |只看作者 |坛友微信交流群
分几类主要取决于你个人的经验、感觉与理论。一般统计检验只能大概给你个参考,用得最多的就是类别间与类别内的方差检验、判别分析检验。不管分几类,你只要可以自愿其说就可以了。完全用定量与统计的方法确定最优k-mean聚类的类别数量的方法是不存在的。

使用道具

板凳
mayshen008 发表于 2013-3-17 20:47:36 |只看作者 |坛友微信交流群
602dxz 发表于 2013-3-17 20:23
分几类主要取决于你个人的经验、感觉与理论。一般统计检验只能大概给你个参考,用得最多的就是类别间与类别 ...
我还是存在疑问,不如我把文献那一段原文抄给你看看吧,请您再帮忙解释下:
“Next, the raw data consisting of 396 cases was randomly split into two data sets, A and B, each containing 198 cases. The K-means cluster procedure was administrated with the two sets of data.
With the possible cluster solution n (n=2,3...5,or 6), Data A were utilized to generate the distances between initial clusters by the K-means procedure.
The distance generated then was used with Data B computed by K-means analysis. Data B were computed in an unconstrained manner using the same procedure that was used for Data A.
Then a constrained computation using the cluster distances acquired in Data A was determined.
This procedure essentially provided a cross-validation for Data B. For a given n, the constrained solution clustered the cases in Data B according to the cluster distance generated from Data A, while the unconstrained solution was free of restrictions. Accordingly, Kappa co-efficiencies(the chance corrected coefficients of agreement) were calculated for the two solutions of Data B cases.
For each n, the optional n with the maximal Kappa was chosen as candidate N for the entire data for the final cluster analysis .”

使用道具

报纸
602dxz 发表于 2013-3-17 21:17:47 |只看作者 |坛友微信交流群
mayshen008 发表于 2013-3-17 20:47
我还是存在疑问,不如我把文献那一段原文抄给你看看吧,请您再帮忙解释下:
“Next, the r ...
不好意思,我在用k-mean聚类的时候从没有关注过Kappa检验问题。由于我是先验理论驱动派(也就是说在做聚类分析前就大概心里已经确定了要分几类),楼主所关注的问题估计只有找数据驱动派(比如做数据挖掘方面的,在建模前没有理论与先验,完全靠数据来告诉你现象的那种流派)的人才能给你完美的解答。

使用道具

地板
--墨子-- 发表于 2013-3-18 01:21:52 |只看作者 |坛友微信交流群
用系统聚类
把系数的变化plot成散点图(碎石土)
找拐点
关注我的微博: http://weibo.com/weizhangmozi

使用道具

7
奔跑的鹰 发表于 2013-3-28 23:40:39 |只看作者 |坛友微信交流群
--墨子-- 发表于 2013-3-18 01:21
用系统聚类
把系数的变化plot成散点图(碎石土)
找拐点
您好,看到您在人大经济论坛上说,用聚类分析时,可以找出最优分类,请问是如何找的?我用的是SPSS,谢谢您。。.

使用道具

8
奔跑的鹰 发表于 2013-3-28 23:43:57 |只看作者 |坛友微信交流群
--墨子-- 发表于 2013-3-18 01:21
用系统聚类
把系数的变化plot成散点图(碎石土)
找拐点
这个系数指的是什么?是说所有分类的系数,还是各成一类时的系数?

使用道具

9
mayshen008 发表于 2013-4-7 15:18:42 |只看作者 |坛友微信交流群
奔跑的鹰 发表于 2013-3-28 23:43
这个系数指的是什么?是说所有分类的系数,还是各成一类时的系数?
系统聚类就是hirachical cluster
自己选定聚类范围的

使用道具

10
mayshen008 发表于 2013-4-7 15:19:26 |只看作者 |坛友微信交流群
602dxz 发表于 2013-3-17 21:17
不好意思,我在用k-mean聚类的时候从没有关注过Kappa检验问题。由于我是先验理论驱动派(也就是说在做聚类 ...
还是谢谢你,那段内容我自己已经搞明白了。的确也是一种你说的纯靠数据来检验分类的

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-4 04:30