之后分析了一下源数据,猜测是因为源数据结构不是一次线性(K-means对线性结构数据聚类比较友好是吗?),基本呈现指数增长,有若干极大值。因此换了一下方法,在Z分数前对所有数据进行对数Ln处理,但是这个样的PCA结果跟原来差别很大:只有两个主成分,依然代表源数据的94%,旋转后两个主成分都各代表了6个源数据,剩下7个源数据没有代表(旋转后都两个主成分跟这几个源数据都只有大概50%的相关性),但是聚类结果非常好,最大的一类只有70%,而且返回到城市空间中非常有意义。
所以在这里想问问各位大神,为什么进行取对数Ln后会丢失了主成分的信息呢?我猜测是因为Ln的“拍平”效率太大了,尝试取二次根号,结果还是一样。。。请问为什么呢?
(其实就是想要第一次的PCA结果,和第二次的K-means聚类结果),谢谢各位!
下图是不进行Ln对数时候的结果: