楼主: a599266322
1634 1

[数据挖掘理论与案例] 源数据是否进行标准化(对数)后进行PCA结果不相同 [推广有奖]

  • 0关注
  • 0粉丝

等待验证会员

学前班

80%

还不是VIP/贵宾

-

威望
0
论坛币
10 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
30 点
帖子
2
精华
0
在线时间
0 小时
注册时间
2018-12-31
最后登录
2018-12-31

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
研究的思路是,原数据有19个指标,先取Z分数进行标准化后再用PCA进行数据降维,然后再用K-means聚类(或者K-medoids聚类)。按照这个方法,PCA的结果很好:一共分离出三个主成分,旋转后分别代表了大概6个有意义的原指标,代表源数据的94%;但是之后聚类的时候,其中98%的数据都分到同一类中(无论K设多少都是这样。。。),算是聚类失败了。

之后分析了一下源数据,猜测是因为源数据结构不是一次线性(K-means对线性结构数据聚类比较友好是吗?),基本呈现指数增长,有若干极大值。因此换了一下方法,在Z分数前对所有数据进行对数Ln处理,但是这个样的PCA结果跟原来差别很大:只有两个主成分,依然代表源数据的94%,旋转后两个主成分都各代表了6个源数据,剩下7个源数据没有代表(旋转后都两个主成分跟这几个源数据都只有大概50%的相关性),但是聚类结果非常好,最大的一类只有70%,而且返回到城市空间中非常有意义。

所以在这里想问问各位大神,为什么进行取对数Ln后会丢失了主成分的信息呢?我猜测是因为Ln的“拍平”效率太大了,尝试取二次根号,结果还是一样。。。请问为什么呢?
(其实就是想要第一次的PCA结果,和第二次的K-means聚类结果),谢谢各位!

下图是不进行Ln对数时候的结果:
微信图片_20181231153407.png

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:聚类结果 数据降维 线性结构 数据聚类 数据结构

沙发
阿扁V5 学生认证  发表于 2019-1-9 21:19:52 |只看作者 |坛友微信交流群
这是为了想得到某个结果而分析

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-27 09:33