楼主: 有福有德
2013 1

[SAS] SAS程序下,聚类方法的选择   [推广有奖]

教师

已卖:272份资源

院士

7%

还不是VIP/贵宾

-

威望
4
论坛币
56269 个
通用积分
9.0033
学术水平
344 点
热心指数
203 点
信用等级
274 点
经验
37388 点
帖子
1134
精华
10
在线时间
959 小时
注册时间
2010-10-14
最后登录
2025-12-3

楼主
有福有德 在职认证  发表于 2015-2-13 17:24:56 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
      聚类分析方法(观测值聚类)的选择细节特别多,下面是根据手册总结出的结果,供参阅。
method=指定方法:一般会根据观测值多少(size)、形状(shape)、离散性(dispersion)来综合判断使用什么方法;


1)K-means和ward倾向于每个类中有相同的观测值。
2)average倾向于聚的类具有相同的方差;
3)非参模型single、twostage和density系列的方法倾向于不规则的图形。
4)Centroid(质心)对异常值比较稳健。

      一般来说可以分成下面几类是常用的,如果聚类特征特别好,哪种方法基本上没有什么区别。






1、类间界限不清晰的情况,一般使用twostage(调整k)和ward的方法




  1. title;
  2. data closer;
  3.    keep x y c;
  4.    n=50; scale=1;
  5.    mx=0; my=0; c=3; link generate;
  6.    mx=3; my=0; c=1; link generate;
  7.    mx=1; my=2; c=2; link generate;
  8.    stop;
  9. generate:
  10.    do i=1 to n;
  11.      x=rannor(9)*scale+mx;
  12.      y=rannor(9)*scale+my;
  13.      output;
  14.    end;
  15.    return;
  16. run;
  17. proc sgplot;
  18.      scatter y=y x=x / group=c ;
  19. run;
复制代码

1.png


2、不同观测值和离散性的多元正态(twostage(调整k)、single)




  1. data unequal;
  2.    keep x y c;
  3.    mx=1; my=0; n=20; scale=.5; c=1; link generate;
  4.    mx=6; my=0; n=80; scale=2.; c=3; link generate;
  5.    mx=3; my=4; n=40; scale=1.; c=2; link generate;
  6.    stop;
  7. generate:
  8.   do i=1 to n;
  9.     x=rannor(1)*scale+mx;
  10.     y=rannor(1)*scale+my;
  11.     output;
  12.   end;
  13.   return;
  14. run;
  15. proc sgplot;
  16.      scatter y=y x=x / group=c;
  17. run;
复制代码



2.png


3、细长型的数据分布(twostage(圆形区域内聚类)、结合aceclus(细长型的聚类))




  1. data elongate;
  2.     keep x y z;
  3.     ma=8; mb=0; z=1; link generate;
  4.     ma=6; mb=8; z=2; link generate;
  5.     stop;
  6. generate:
  7.     do i=1 to 50;
  8.       a=rannor(7)*6+ma;
  9.       b=rannor(7)+mb;
  10.       x=a-b;
  11.       y=a+b;
  12.       output;
  13.      end;
  14. return;
  15. run;
  16. proc sgplot;
  17.      scatter y=y x=x / group=z;
  18. run;
复制代码



3.png


4、Nonconvex聚类(centroid、twostage(调整k扑捉非线性趋势))




  1. data noncon;
  2.    keep x y;
  3.    do i=1 to 100;
  4.      a=i*.0628319;
  5.      x=cos(a)+(i>50)+rannor(7)*.1;
  6.      y=sin(a)+(i>50)*.3+rannor(7)*.1;
  7.      output;
  8.    end;
  9. run;
  10. proc fastclus data=noncon out=out maxc=2 noprint;
  11. run;
  12. proc sgplot;
  13.      scatter y=y x=x / group=cluster;
  14. run;
复制代码


4.png



       不规则图形还是要看需要扑捉到什么图形,一般可以在非参的一类方法中,调整参数达到目的
以上均是2个变量的间的散点图,如果需要绘制多变量简单的图形,一般通用的做法是绘制典型变量的图形
       在SAS中一般会结合典型判别过程进行处理。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:sas程序 聚类方法 dispersion generate centroid generate average method single title generate average method single title

已有 1 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
niuniuyiwan + 60 + 60 + 1 + 1 + 1 精彩帖子

总评分: 经验 + 60  论坛币 + 60  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

本帖被以下文库推荐

所有模型都是错的

沙发
niuniuyiwan 在职认证  发表于 2015-8-12 19:06:09
好贴啊好帖,学习中,支持!

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-1-1 21:10