楼主: 有福有德
23629 74

[程序分享] 聚类方法选择   [推广有奖]

教师

院士

6%

还不是VIP/贵宾

-

威望
4
论坛币
56500 个
通用积分
8.4735
学术水平
344 点
热心指数
203 点
信用等级
274 点
经验
37400 点
帖子
1138
精华
10
在线时间
945 小时
注册时间
2010-10-14
最后登录
2024-3-21

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
聚类分析方法(观测值聚类)的选择细节特别多,下面是根据手册总结出的结果,供参阅。
method=指定方法:一般会根据观测值多少(size)、形状(shape)、离散性(dispersion)来综合判断使用什么方法;
1)K-means和ward倾向于每个类中有相同的观测值。
2)average倾向于聚的类具有相同的方差;
3)非参模型single、twostage和density系列的方法倾向于不规则的图形。
4)Centroid(质心)对异常值比较稳健。
一般来说可以分成下面几类是常用的,如果聚类特征特别好,哪种方法基本上没有什么区别。
1)类间界限不清晰的情况,一般使用twostage(调整k)和ward的方法
title;
data closer;
   keep x y c;
   n=50; scale=1;
   mx=0; my=0; c=3; link generate;
   mx=3; my=0; c=1; link generate;
   mx=1; my=2; c=2; link generate;
   stop;
generate:
   do i=1 to n;
     x=rannor(9)*scale+mx;
     y=rannor(9)*scale+my;
     output;
   end;
   return;
run;
proc sgplot;
     scatter y=y x=x / group=c ;
run;
1).png
2)不同观测值和离散性的多元正态(twostage(调整k)、single)
data unequal;
   keep x y c;
   mx=1; my=0; n=20; scale=.5; c=1; link generate;
   mx=6; my=0; n=80; scale=2.; c=3; link generate;
   mx=3; my=4; n=40; scale=1.; c=2; link generate;
   stop;
generate:
  do i=1 to n;
    x=rannor(1)*scale+mx;
    y=rannor(1)*scale+my;
    output;
  end;
  return;
run;
proc sgplot;
     scatter y=y x=x / group=c;
run;
2).png
3)细长型的数据分布(twostage(圆形区域内聚类)、结合aceclus(细长型的聚类))
data elongate;
    keep x y z;
    ma=8; mb=0; z=1; link generate;
    ma=6; mb=8; z=2; link generate;
    stop;
generate:
    do i=1 to 50;
      a=rannor(7)*6+ma;
      b=rannor(7)+mb;
      x=a-b;
      y=a+b;
      output;
     end;
return;
run;
proc sgplot;
     scatter y=y x=x / group=z;
run;
3).png
4)Nonconvex聚类(centroid、twostage(调整k扑捉非线性趋势))
data noncon;
   keep x y;
   do i=1 to 100;
     a=i*.0628319;
     x=cos(a)+(i>50)+rannor(7)*.1;
     y=sin(a)+(i>50)*.3+rannor(7)*.1;
     output;
   end;
run;
proc fastclus data=noncon out=out maxc=2 noprint;
run;
proc sgplot;
     scatter y=y x=x / group=cluster;
run;
4).png

不规则图形还是要看需要扑捉到什么图形,一般可以在非参的一类方法中,调整参数达到目的
以上均是2个变量的间的散点图,如果需要绘制多变量简单的图形,一般通用的做法是绘制典型变量的图形
在SAS中一般会结合典型判别过程进行处理。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:聚类方法 dispersion generate centroid Scatter generate average method single title

已有 9 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
kongqingbao280 + 2 热心帮助其他会员
reduce_fat + 4 + 5 + 5 分析的有道理
np84 + 80 对论坛有贡献
xingen2523 + 5 + 5 + 5 精彩帖子
rhapsodyr + 50 + 3 + 3 观点有启发
webgu + 80 + 80 + 5 + 5 + 5 精彩帖子
我的素质低 + 100 + 5 + 5 + 5 精彩帖子
zhou.wen + 1 + 1 + 1 观点有启发
playmore + 1 + 1 + 1 精彩帖子

总评分: 经验 + 310  论坛币 + 80  学术水平 + 24  热心指数 + 27  信用等级 + 22   查看全部评分

本帖被以下文库推荐

所有模型都是错的
沙发
jshking 学生认证  发表于 2013-7-25 11:29:28 |只看作者 |坛友微信交流群

使用道具

藤椅
scarfacetony 发表于 2013-7-25 13:14:31 |只看作者 |坛友微信交流群
感谢楼主分享……
看了这个视频,我于是有了进股市的信心!
https://bbs.pinggu.org/thread-2787427-1-1.html

使用道具

板凳
boe 发表于 2013-7-25 13:53:26 |只看作者 |坛友微信交流群
谢谢分享
Gorgeous girl , I love !

使用道具

报纸
zhou.wen 发表于 2013-7-25 15:26:13 |只看作者 |坛友微信交流群
请问有德有福老师对FDA(函数型数据)的聚类有没有什么建议?采取哪种聚类方法会比较有效果?
Practice Is The Best Teacher!

使用道具

地板
ywwrdjjlt 发表于 2013-7-25 15:32:08 |只看作者 |坛友微信交流群
真实详细,谢谢了

使用道具

7
yangkongsong 在职认证  发表于 2013-7-25 16:42:03 |只看作者 |坛友微信交流群
交流、学习 ...

使用道具

8
紫雨abc 发表于 2013-7-25 17:01:50 |只看作者 |坛友微信交流群
感谢楼主分享~有用。

使用道具

9
有福有德 在职认证  发表于 2013-7-25 17:13:32 |只看作者 |坛友微信交流群
zhou.wen 发表于 2013-7-25 15:26
请问有德有福老师对FDA(函数型数据)的聚类有没有什么建议?采取哪种聚类方法会比较有效果?
建议非参的方法
所有模型都是错的

使用道具

10
盛夏的暴雪 发表于 2013-7-25 17:27:48 |只看作者 |坛友微信交流群
谢楼主

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-25 18:06