[数据挖掘理论与案例] 源数据是否进行标准化（对数）后进行PCA结果不相同 [推广有奖]

0关注
0粉丝

等待验证会员

学前班

80%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 10 个
通用积分: 0
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 30 点
帖子: 2
精华: 0
在线时间: 0 小时
注册时间: 2018-12-31
最后登录: 2018-12-31

楼主

a599266322 发表于 2018-12-31 15:49:38 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

研究的思路是，原数据有19个指标，先取Z分数进行标准化后再用PCA进行数据降维，然后再用K-means聚类（或者K-medoids聚类）。按照这个方法，PCA的结果很好：一共分离出三个主成分，旋转后分别代表了大概6个有意义的原指标，代表源数据的94%；但是之后聚类的时候，其中98%的数据都分到同一类中（无论K设多少都是这样。。。），算是聚类失败了。

之后分析了一下源数据，猜测是因为源数据结构不是一次线性（K-means对线性结构数据聚类比较友好是吗？），基本呈现指数增长，有若干极大值。因此换了一下方法，在Z分数前对所有数据进行对数Ln处理，但是这个样的PCA结果跟原来差别很大：只有两个主成分，依然代表源数据的94%，旋转后两个主成分都各代表了6个源数据，剩下7个源数据没有代表（旋转后都两个主成分跟这几个源数据都只有大概50%的相关性），但是聚类结果非常好，最大的一类只有70%，而且返回到城市空间中非常有意义。

所以在这里想问问各位大神，为什么进行取对数Ln后会丢失了主成分的信息呢？我猜测是因为Ln的“拍平”效率太大了，尝试取二次根号，结果还是一样。。。请问为什么呢？
（其实就是想要第一次的PCA结果，和第二次的K-means聚类结果），谢谢各位！

下图是不进行Ln对数时候的结果：
微信图片_20181231153407.png