楼主: satellite111
22953 35

请问聚类分析中,分类变量如何处理 [推广有奖]

21
satellite111 发表于 2011-8-5 11:17:33
ddd
请大家再发高见

22
tyaer 发表于 2011-12-26 16:44:56
聚类分析的定义
  依据研究对象(样品或指标)的特征,对其进行分类的方法,减少研究对象的数目。   
    各类事物缺乏可靠的历史资料,无法确定共有多少类别,目的是将性质相近事物归入一类。   
    各指标之间具有一定的相关关系。   
聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。 聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)   

变量类型:分类变量、连续变量
卖油翁说:“无他,唯熟耳!”

23
tyaer 发表于 2011-12-26 16:55:10
所以说聚类分析是可以处理 分类变量的;
1.在SPSS的聚类分析中,分类变量、连续变量直接作为输入变量;
2.在SAS的EM聚类分析中,分类变量、连续变量直接作为输入变量,但需要在variable measurement中将分类变量设置为nominal或者ordinal,连续变量为interval;
3.在SAS的proc聚类分析中,分类变量需要处理为虚拟变量或者叫哑变量(dummy variables);


希望有用!!!
卖油翁说:“无他,唯熟耳!”

24
flutter88 发表于 2011-12-26 19:15:02
注意:这里讨论的是分类变量和连续变量的问题;
不是数值类型和字符类型的问题!!!

25
maidenhan 发表于 2011-12-27 10:03:13
连续变量就不说了,大家都玩过。
对于离散变量,比如婚姻状况:已婚、未婚、离婚、丧偶。
我本人会把婚姻状况这一个离散变量变成三个哑变量:
var1 = 1 表示未婚
var2 = 1 表示离婚
var3 = 1 表示丧偶
然后把var1-var3看成连续变量,进行聚类

26
christie_guo 发表于 2012-2-5 15:56:31
学习

27
weberxu 发表于 2012-2-5 20:24:02
增加一个变量,试试。

28
beyondcj 发表于 2012-2-5 22:44:00
dingyix

29
gaotao0727 发表于 2012-2-6 17:05:49
转成哑变量或者对其进行压缩~~~~
衣带渐宽终不悔,为伊消得人憔悴~~

30
eyetracker 发表于 2012-2-19 14:07:12
继续关注...

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-29 14:57