楼主: gerxyuan
2370 4

[问答] 聚类分析中变量问题 [推广有奖]

  • 0关注
  • 0粉丝

博士生

43%

还不是VIP/贵宾

-

威望
0
论坛币
4436 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
1475 点
帖子
202
精华
0
在线时间
39 小时
注册时间
2012-7-11
最后登录
2020-3-7

楼主
gerxyuan 发表于 2014-11-15 12:16:05 |AI写论文
2论坛币
想用R做聚类分析,数据里有二元变量,序数变量,数值连续变量。看各种范例都是连续变量在做,我数据二元变量居多,可以用kmeans()做吗?或者需要数据预处理?谢谢!



最佳答案

suhui0723 查看完整内容

我以前做凝聚聚类的时候,二元数据也一起扔进去算相似性矩阵的, 因为算相似性矩阵的时候不同的变量都要归一化, 我不知道我这样做行不行
关键词:聚类分析 kmeans 数据预处理 means 二元变量

沙发
suhui0723 在职认证  发表于 2014-11-15 12:16:06
我以前做凝聚聚类的时候,二元数据也一起扔进去算相似性矩阵的,
因为算相似性矩阵的时候不同的变量都要归一化,
我不知道我这样做行不行

藤椅
李会超 发表于 2014-11-15 15:27:12
聚类分析都是针对连续变量,没有二元变量聚类的

板凳
gerxyuan 发表于 2014-11-15 16:35:38
我问过一个R博客的博主,他提示可以在连续变量基础上,加二值变量。
我搜出国外网站上类似问题,说Gower distance is a good metric for datasets with mixed variables.
有人知道怎么搞吗?

报纸
calsunny 发表于 2014-11-16 04:43:58
See here on page 7:

http://www.statisticalinnovations.com/products/twostep.pdf

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-31 03:10