- 阅读权限
- 255
- 威望
- 0 级
- 论坛币
- 10 个
- 通用积分
- 0
- 学术水平
- 0 点
- 热心指数
- 0 点
- 信用等级
- 0 点
- 经验
- 30 点
- 帖子
- 2
- 精华
- 0
- 在线时间
- 0 小时
- 注册时间
- 2018-12-31
- 最后登录
- 2018-12-31
学前班
还不是VIP/贵宾
- 威望
- 0 级
- 论坛币
- 10 个
- 通用积分
- 0
- 学术水平
- 0 点
- 热心指数
- 0 点
- 信用等级
- 0 点
- 经验
- 30 点
- 帖子
- 2
- 精华
- 0
- 在线时间
- 0 小时
- 注册时间
- 2018-12-31
- 最后登录
- 2018-12-31
|
相似文件
换一批
经管之家送您一份
应届毕业生专属福利!
求职就业群
感谢您参与论坛问题回答
经管之家送您两个论坛币!
+2 论坛币
研究的思路是,原数据有19个指标,先取Z分数进行标准化后再用PCA进行数据降维,然后再用K-means聚类(或者K-medoids聚类)。按照这个方法,PCA的结果很好:一共分离出三个主成分,旋转后分别代表了大概6个有意义的原指标,代表源数据的94%;但是之后聚类的时候,其中98%的数据都分到同一类中(无论K设多少都是这样。。。),算是聚类失败了。
之后分析了一下源数据,猜测是因为源数据结构不是一次线性(K-means对线性结构数据聚类比较友好是吗?),基本呈现指数增长,有若干极大值。因此换了一下方法,在Z分数前对所有数据进行对数Ln处理,但是这个样的PCA结果跟原来差别很大:只有两个主成分,依然代表源数据的94%,旋转后两个主成分都各代表了6个源数据,剩下7个源数据没有代表(旋转后都两个主成分跟这几个源数据都只有大概50%的相关性),但是聚类结果非常好,最大的一类只有70%,而且返回到城市空间中非常有意义。
所以在这里想问问各位大神,为什么进行取对数Ln后会丢失了主成分的信息呢?我猜测是因为Ln的“拍平”效率太大了,尝试取二次根号,结果还是一样。。。请问为什么呢?
(其实就是想要第一次的PCA结果,和第二次的K-means聚类结果),谢谢各位!
下图是不进行Ln对数时候的结果:
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
|
|
|