楼主: xddlovejiao1314
10271 10

[问答] 数据分析心得——聚类分析时的极端值处理 [推广有奖]

教师

心灵导师

学术权威

74%

还不是VIP/贵宾

-

TA的文库  其他...

个人学术成果库

威望
6
论坛币
253166 个
通用积分
31359.5462
学术水平
1935 点
热心指数
2485 点
信用等级
1632 点
经验
722039 点
帖子
7053
精华
7
在线时间
5207 小时
注册时间
2013-5-24
最后登录
2025-9-29

一级伯乐勋章 初级学术勋章 初级热心勋章 初级信用勋章 中级热心勋章 中级学术勋章 中级信用勋章 高级热心勋章 高级学术勋章 高级信用勋章 特级热心勋章 特级学术勋章 特级信用勋章

楼主
xddlovejiao1314 学生认证  发表于 2014-12-19 12:03:23 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
      数据分析心得——聚类分析时的极端值处理

       在对农户问卷数据做聚类分析时,先考察数据的分布,一般情况下很多变量均是正偏态分布,在不想去除极端值的情况下(去除极端值会造成本不多的样本再度流失)可考虑在系统聚类时用横向标准化的方法并用中位数进行聚类。这样既不损失样本,又能在不受极端值影响下考察数据的集中趋势,不至于得到不好甚至错误的分析结果(因为均值受极端值影响)。
      PS:若连续变量不存在大量的0的情况下,可考虑对原始数据进行对数变换解决其正偏态分布的问题,如有大量0存在时,就不能取对数了,因为ln(0)无意义。



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:聚类分析 数据分析 极端值 偏态分布 对数变换 聚类分析;极端值处理;SPSS

已有 2 人评分经验 学术水平 热心指数 信用等级 收起 理由
niuniuyiwan + 60 + 5 + 5 + 5 精彩帖子
我的素质低 + 100 + 5 + 5 + 5 精彩帖子

总评分: 经验 + 160  学术水平 + 10  热心指数 + 10  信用等级 + 10   查看全部评分

本帖被以下文库推荐

说话是一种能力,少说是一种智慧

沙发
tstone318 发表于 2014-12-19 21:27:57
学习了

藤椅
xddlovejiao1314 学生认证  发表于 2014-12-20 12:03:46
tstone318 发表于 2014-12-19 21:27
学习了
呵呵,相互学习。昨天下午突然想到,若正偏态数据中有大量0存在,也可以用对数变换ln(x+1),这样就能消除ln(0)不存在的影响。

板凳
我是痘痘绒 在职认证  发表于 2015-1-8 13:23:33
xddlovejiao1314 发表于 2014-12-20 12:03
呵呵,相互学习。昨天下午突然想到,若正偏态数据中有大量0存在,也可以用对数变换ln(x+1),这样就能消除 ...
楼主我也是用农户数据,想根据农户的林地面积将165个样本数据进行聚类分析,但是一直出不来结果,楼主说的这个方法具体怎么操作呢,求具体指点一下,谢谢 !!!!

报纸
xddlovejiao1314 学生认证  发表于 2015-1-8 22:02:13
我是痘痘绒 发表于 2015-1-8 13:23
楼主我也是用农户数据,想根据农户的林地面积将165个样本数据进行聚类分析,但是一直出不来结果,楼主说的 ...
这个说来话长,建议你在网上下载一本张文彤老师主编的《IBM SPSS数据分析与挖掘实战案例精粹》这本书的电子版。看看里面的案例14,有详细的介绍和操作。我也是受此启发才写的这个心得。
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
我的素质低 + 5 + 5 + 5 精彩帖子

总评分: 学术水平 + 5  热心指数 + 5  信用等级 + 5   查看全部评分

地板
我是痘痘绒 在职认证  发表于 2015-1-8 22:07:50
xddlovejiao1314 发表于 2015-1-8 22:02
这个说来话长,建议你在网上下载一本张文彤老师主编的《IBM SPSS数据分析与挖掘实战案例精粹》这本书的电 ...
好的  谢谢 我现在出来树状图了  但是都是断开的 还是没看懂应该怎么分类、分几类。。。。

7
xddlovejiao1314 学生认证  发表于 2015-1-8 22:53:53
我是痘痘绒 发表于 2015-1-8 22:07
好的  谢谢 我现在出来树状图了  但是都是断开的 还是没看懂应该怎么分类、分几类。。。。
额,这个一般市场畅销的统计书(如张文彤老师主编的SPSS系列)都有相关的介绍的。你也可以百度具体看看聚类分析怎么做。很容易看懂树状图的。祝你好运啊。
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
我的素质低 + 5 + 5 + 5 精彩帖子

总评分: 学术水平 + 5  热心指数 + 5  信用等级 + 5   查看全部评分

8
xddlovejiao1314 学生认证  发表于 2015-4-2 21:37:41
tstone318 发表于 2014-12-19 21:27
学习了
亲,你好,打扰你一下。有兴趣请关注我的帖子https://bbs.pinggu.org/thread-3641714-1-1.html,关注经管代码库的成长。经管代码库才成立不久,迫切需要人才来协助发展。
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
我的素质低 + 4 + 5 + 5 精彩帖子

总评分: 学术水平 + 4  热心指数 + 5  信用等级 + 5   查看全部评分

9
xddlovejiao1314 学生认证  发表于 2015-4-2 21:37:52
我是痘痘绒 发表于 2015-1-8 13:23
楼主我也是用农户数据,想根据农户的林地面积将165个样本数据进行聚类分析,但是一直出不来结果,楼主说的 ...
亲,你好,打扰你一下。有兴趣请关注我的帖子https://bbs.pinggu.org/thread-3641714-1-1.html,关注经管代码库的成长。经管代码库才成立不久,迫切需要人才来协助发展。

10
随风者 发表于 2015-4-2 22:10:51

回帖奖励 +1

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-9 15:58