请选择 进入手机版 | 继续访问电脑版
楼主: semenljw
24109 18

[学习分享] SAS中的聚类分析方法总结(1)——聚类分析概述(续1) [推广有奖]

教授

9%

还不是VIP/贵宾

-

威望
0
论坛币
14350 个
通用积分
50.0395
学术水平
56 点
热心指数
62 点
信用等级
46 点
经验
4923 点
帖子
505
精华
2
在线时间
1346 小时
注册时间
2008-12-12
最后登录
2024-3-1

semenljw 在职认证  发表于 2014-5-9 11:21:46 |显示全部楼层 |坛友微信交流群

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
SAS中的聚类分析方法总结(1)——聚类分析概述
SAS中的聚类分析方法总结(1)——聚类分析概述(续2)

5.     用proc distance做什么?

我们知道数据变量分四类:名义变量、次序变量、interval变量和ritio变量。但sas里面目前的聚类算法都要求变量时ratio变量。那想要对离散变量进行聚类怎么呢?一种想法自然是讲所有的离散变量都转成0-1变量。这会有如下几个问题:

1)    变量的信息可能会有损失,比如次序型变量转成0-1变量后,次序信息就很难保留;

2)    当离散变量的取值非常多时,转成0-1变量后生成的新变量也会非常多,这样也会造成很多处理上的不便;

3)    0-1变量也没法做标准化等等一些运算,因为这种运算其实是没有意义的

那该如何处理离散变量的聚类呢?答案是用proc distance。我们知道聚类过程中首先是从计算距离或者相似度开始的。一个很自然的想法就是针对离散变量定义有意义的距离(对离散变量和连续变量混合类型的数据)。Proc distance就是用来算这种距离的一个很好的过程。距离或者相似度可以看成是连续数据,自然就可以用sas里面的聚类算法了。


6.     用proc stdize做什么?

前面说过聚类算法首先要算的距离,然后通过距离来执行后续的计算。在距离计算的过程方差比较大的变量影响会更大,这个通常不是我们希望看到。所以非常有必要讲参与聚类的变量转换成方差尽量相同。Proc stdize就能实现这种功能。Proc stdize不仅提供了将变量转换了均值为0,方差转换为1的标准化,还提供了很多其它类型的标准化。比如,range标准化(变量减去最小值除以最大值和最小值得差)


7.     用proc varclus做什么?

在做回归分析的时候,我们知道变量过多会有两个问题:

1)    变量过多会影响预测的准确,尤其当无关紧要的变量引入模型之后;

2)    变量过多不可避免的会引起变量之前的共线性,这个会影响参数估计的精度

聚类分析实际上也存在类似的问题,所以有必要先对变量做降维。说到降维,马上有人会说这个可以用主成分啊,这个的确没错。但是主成分的解释性还是有点差。尤其是第二主成分之后的主成分。那用什么比较好呢?答案是proc varclus——斜交主成分。

我们常说的主成分实际上正交主成分。斜交主成分是在正交主成分的基础上再做了一些旋转。这样得到的主成分不仅能保留主成分的优点(主成分变量相关程度比较低)。另外一方面又能有很到的解释性,并且能达到对变量聚类的效果。使同类别里面的变量尽可能相关程度比较高,不同类别里面的变量相关程度尽可能低。这样根据一定的规则我们就可以在每个类别里面选取一些有代表性的变量,这样既能保证原始的数据信息不致损失太多,也能有效消除共线性。有效提升聚类分析的精度。

8.     用proc mds 和proc princomp做什么?

将原始数据降到两维,通过图形探测整个数据聚类后大致大类别数


9.     用proc aceclus做什么?

聚类算法尤其是k-means算法要求聚类数据是球形数据。如果是细长型的数据或者非凸型数据,这些算法的表现就会相当差。一个很自然的变通想法就是,能不能将非球形数据变换成球形数据呢?答案是可以的。这就要用到proc aceclus。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:聚类分析 分析方法 分析概述 Distance Interval distance 做什么 如何 信息

已有 1 人评分经验 收起 理由
eijuhz + 40 精彩帖子

总评分: 经验 + 40   查看全部评分

阮思夏 学生认证  发表于 2014-5-20 01:19:15 |显示全部楼层 |坛友微信交流群
{:3_57:}{:3_57:}

使用道具

tony2040044 发表于 2014-5-27 10:28:03 |显示全部楼层 |坛友微信交流群
lz 加油写啊!

使用道具

zorro999 发表于 2014-6-11 11:27:26 |显示全部楼层 |坛友微信交流群
支持啊!

使用道具

zf81920 发表于 2014-6-23 16:42:13 |显示全部楼层 |坛友微信交流群
很详细

使用道具

judy09 发表于 2014-7-23 12:11:01 |显示全部楼层 |坛友微信交流群
太好的帖子啊,赞!

使用道具

秋稔 在职认证  学生认证  发表于 2014-8-8 11:09:57 |显示全部楼层 |坛友微信交流群

使用道具

yann_sisi 发表于 2014-11-17 21:30:25 |显示全部楼层 |坛友微信交流群
赞一个~

使用道具

cwzkevin 发表于 2015-2-16 23:07:19 |显示全部楼层 |坛友微信交流群
thanks, could be in one post

使用道具

bitcoin 发表于 2015-2-19 11:03:20 来自手机 |显示全部楼层 |坛友微信交流群
semenljw 发表于 2014-5-9 11:21
SAS中的聚类分析方法总结(1)——聚类分析概述
SAS中的聚类分析方法总结(1)——聚类分析概述(续2)5.  ...
好帖

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-3-29 13:35