楼主: ethan0970
1409 4

[学习分享] 聚類分析原理與測試 [推广有奖]

  • 0关注
  • 0粉丝

高中生

2%

还不是VIP/贵宾

-

威望
0
论坛币
22 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
96 点
帖子
13
精华
0
在线时间
30 小时
注册时间
2011-10-31
最后登录
2014-10-19

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
小弟第一次發文,如有疏漏,請多指教


主題為介紹SAS軟件中下對上的階層式聚類法,為非監督式分類法之一


語法如下:


PROC CLUSTER data=abc METHOD=AVERAGE OUTTREE=TREE ccc pseudo;
VAR x;
copy y;
run;

*輸入資料集、方法採用(據SAS官方所述,在此介紹兩種,Average為UPGMA法,計算距離採正規化後均方根距離;
Centroid為UPGMC法,對觀測值或集群取中位數後計算兩兩成對的歐式距離)

*Outtree為輸出繪製樹形圖所需表格

*CCC為輸出類間群集準則

*Pseudo為輸出偽T與偽F檢定量


proc tree data=tree ncl=a out=result;
run;

輸出樹形圖與表,ncl為指定群集個數,out為輸出統計表

tree18.png
樹形圖如上,觀測值或集群兩兩成對計算距離後,取最短距離之兩觀測值(或集群)進行合併



兩距離相近之觀測值或集群進行連接


合併至只剩一個集群停止


CccPsfAndPsTSqPlot18.png

集群準則圖,判定合併方式之一

圖片1.png

SAS輸出的報表

RSQ為模式線性關係強弱,Semi-Partial RSQ為邊際(marginal)的RSQ

描述RSQ的增量,一般不於過大時選擇分群數目,避免多分一群時大幅增加模式解釋度

偽F統計量描述組間離散度/組內離散度,故該值愈大則合併至該數目愈佳

偽T統計量與CCC值方在探討中,希望熱心人士能予以解答
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Marginal centroid average Cluster Partial

沙发
tmdxyz 发表于 2014-10-6 06:37:17 |只看作者 |坛友微信交流群
学习了,保存了。谢谢!

使用道具

藤椅
gzwdw138 发表于 2014-10-6 07:31:27 |只看作者 |坛友微信交流群
繁体字,很难看。看看你的原始数据。

使用道具

板凳
ethan0970 发表于 2014-10-6 07:38:23 |只看作者 |坛友微信交流群
不好意思,我是台灣人,不習慣用簡體字

原始數據為地理資訊方面的數據

礙於資料保密的關係,恕我無法提供

使用道具

报纸
MrLonelly 发表于 2014-10-6 09:35:49 |只看作者 |坛友微信交流群
这个可以学习一下                                                                        
                                       
                                                     
                                                     
                                             
                                                                 
                                                                                 

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-20 02:13