我在做中文词聚类相关性之类的东西。数据有大概5、6千个节点,其中两两之间的相似性矩阵已经算好,得到的当然是个稀疏矩阵,现在要进行聚类,要求:将簇的数量大幅度减少,大概减少到100以下吧~ 就是一直合并相似度最大的直到某个阈值为止。而且我希望得到的结果是我能知道每个类里面都聚集了哪些节点。
(好吧其实本来我没有准备大幅度聚类的,毕竟中文这东西不太方便拿来spss。但是最后生成网络图的时候节点实在太多了,所以临时决定还是聚类一下。所以毕设没时间了~~紧急求助啊!!!)
之前各种搜索教程看见了“
在SPSS中用相关矩阵进行聚类分析
”这个帖子,也去了原帖看了,里面的格式确实是有用的,都不用Syntax语句直接用命令就可以搞定。but不大懂格式的意义,原case如下:前面4个变量是加上去的,从第五个变量开始就是距离矩阵了~ but原case是11个人的矩阵,我实验过,11个case的时候完美运行~~ but我的数据是一个大概6000×6000的相似性矩阵,也就是距离矩阵,不过是个稀疏矩阵其实,我试过,case超过11个的时候就溢出了这个只跑前11个了~~我估量了一下估计是矩阵格式上需要修改,so目前的问题是:
如何修改距离矩阵格式让spss能进行聚类分析啊!!!!~~~~~?????
好吧,事情就是这样,不知道说清楚了没,求大神不吝赐教!!!!!老娘拜谢一个先!!!