请选择 进入手机版 | 继续访问电脑版
楼主: ada89k
1240 0

[校园话题] 【数据分析师分享】用于筛选聚类变量的一套方法 [推广有奖]

  • 3关注
  • 72粉丝

院士

99%

还不是VIP/贵宾

-

威望
2
论坛币
621761 个
通用积分
1.0278
学术水平
123 点
热心指数
149 点
信用等级
82 点
经验
46289 点
帖子
1667
精华
3
在线时间
2442 小时
注册时间
2017-2-7
最后登录
2024-4-9

ada89k 在职认证  发表于 2017-5-31 18:11:15 |显示全部楼层 |坛友微信交流群
相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

用于筛选聚类变量的一套方法



聚类分析是常见的数据分析方法之一,主要用于市场细分、用户细分等领域。利用SPSS进行聚类分析时,用于参与聚类的变量决定了聚类的结果,无关变量有时会引起严重的错分,因此,筛选有效的聚类变量至关重要。

案例数据源:

在SPSS自带数据文件plastic.sav中记录了20中塑料的三个特征,分别是tear_res(抗拉力)、gloss(光滑度)、opacity(透明度),相关经验表面这20中塑料可以分为3个种类,如果用这三个变量进行聚类,请判断和筛选有效聚类变量。


一套筛选聚类变量的方法

1492157555727016317.png



一、盲选

将根据经验得到的、现有的备选聚类变量全部纳入模型,暂时不考虑某些变量是否不合适。本案例采用SPSS系统聚类方法。对话框如下:


1492157555921007694.png



统计量选项卡:聚类成员选择单一方案,聚类数输入数字3;

绘制选项卡:勾选树状图;

方法选项卡:默认选项,不进行标准化;

保存选项卡:聚类成员选择单一方案,聚类数输入数字3;

二、初步聚类

这是盲选得到的初步聚类结果,并且在数据视图我们可以看到已经自动生成了一个聚类结果变量,这个变量非常有用。

1492157555976066004.png



三、方差分析

是不是每一个纳入模型的聚类变量都对聚类过程有贡献?利用已经生成的初步聚类结果,我们可以用一个单因素方差分析来判断分类结果在三个变量上的差异是否显著,进而判断哪些变量对聚类是没有贡献的。


1492157556021037202.png


分析——比较均值——单因素方差分析:

选项选项卡:勾选均值图

1492157556084079461.png



由方差分析我们很明确的得知,纳入模型的三个聚类变量,其中只有“透明度”指标在各个分类上有显著的差异,也就是说分类有效果,让每个分类的差异很大,而两外两个变量则在三个分类上没有显著差异,没有很好的类别区分度,所以,我们可以认为,这两个变量对聚类无作用或者无贡献,可考虑踢出模型。

我们还想从可视化的角度来查看和判断,单因素方差分析为我们提供了均值图,可惜,这三个图却最容易误导我们的判断,因为spss在自动生产均值图时为每一个变量单独制图,而且分配不同的纵轴坐标,导致每个图看起来都有非常大的差异,从视觉上迷惑我们做出错误的判断。

1492157556131016105.png



这里需要改进!

四、均值描述

为改进以上SPSS默认选项的不足之处,我们需要自己生成三个变量在不同类别上的均值,means过程可以帮助到我们。


1492157556177063256.png



从数字上来看,抗拉力(6.8、6.7、7.1)、光滑度(9.3、9.4、9.2)两个指标在三个类别上并没有多大的差异,而对聚类有贡献的透明度指标在不同类别上区分度非常明显。


1492157556224019881.png



五、多线均值图

克服纵轴刻度的方法是将这三个指标放在同一个坐标轴上进行对比,也就是制作一个多线均值图。


1492157556257003896.png



此时,结果已经一目了然了。

综上,我们可以将抗拉力、光滑度两个指标从模型中剔除,只留下透明度一个指标再进行聚类。


1492157556303004565.png



我们发现,前后两次聚类的结果一模一样,用一个指标可以代替以前三个指标的进行聚类。
我们这样做的意义何在?如果能将这些整理成为规则,形成经验,那我们就可以不用测量抗拉力和光滑度这两个指标了,你不觉得多测量两个指标成本会增加吗?

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据分析师 数据分析 分析师 单因素方差分析 plastic 数据分析师 聚类变量 SPSS SPSS聚类变量 聚类分析

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-18 13:52