主題為介紹SAS軟件中下對上的階層式聚類法,為非監督式分類法之一
語法如下:
PROC CLUSTER data=abc METHOD=AVERAGE OUTTREE=TREE ccc pseudo;
VAR x;
copy y;
run;
*輸入資料集、方法採用(據SAS官方所述,在此介紹兩種,Average為UPGMA法,計算距離採正規化後均方根距離;
Centroid為UPGMC法,對觀測值或集群取中位數後計算兩兩成對的歐式距離)
*Outtree為輸出繪製樹形圖所需表格
*CCC為輸出類間群集準則
*Pseudo為輸出偽T與偽F檢定量
proc tree data=tree ncl=a out=result;
run;
輸出樹形圖與表,ncl為指定群集個數,out為輸出統計表
樹形圖如上,觀測值或集群兩兩成對計算距離後,取最短距離之兩觀測值(或集群)進行合併
兩距離相近之觀測值或集群進行連接
合併至只剩一個集群停止
集群準則圖,判定合併方式之一
SAS輸出的報表
RSQ為模式線性關係強弱,Semi-Partial RSQ為邊際(marginal)的RSQ
描述RSQ的增量,一般不於過大時選擇分群數目,避免多分一群時大幅增加模式解釋度
偽F統計量描述組間離散度/組內離散度,故該值愈大則合併至該數目愈佳
偽T統計量與CCC值方在探討中,希望熱心人士能予以解答