人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › 数据分析师（CDA）专版 › 从0开始学电商数据分析-12

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: Data-零一

1754 1

[CDA数据分析师学习之路] 从0开始学电商数据分析-12 [推广有奖]

0关注
38粉丝

本科生

60%

还不是VIP/贵宾

威望: 0 级
论坛币: 1090 个
通用积分: 0
学术水平: 1 点
热心指数: 1 点
信用等级: 0 点
经验: 702 点
帖子: 47
精华: 0
在线时间: 69 小时
注册时间: 2014-4-8
最后登录: 2019-1-3

Data-零一 发表于 2017-7-23 10:08:15 |显示全部楼层 |坛友微信交流群

相似文件

换一批

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

大家好，我是零一。今天继续分享数据分析的四个任务。这一篇给大家介绍第四个任务-探索关系。

我们先讲一讲聚类。

上一篇的探索关系，很多朋友反映说非常有趣，这一篇，聚类分析也是相当有趣的。

聚类分析简称聚类，俗话说物以类聚，人以群分，聚类就是划分子类的过程。算法上面多用k-means和k-medoids，当然，大家可以跳过这些算法的过程，用程序来完成即可。

说简单一点，通过聚类，可以将我们的数据进行分类，并且描述每个类的特征。

聚类应用非常广泛，包括在电商领域的应用也是多不胜数。比如

（1）对客户数据进行聚类分析得到多个客户群组，并且得到各个群组的特征，这可以帮助我们发现客户的共性和差异性；

（2）竞争对手数据进行聚类分析得到多个对手群组和各自的特征，这一样可以让我们找到对手们的共性和差异性；

（3）对行业数据进行聚类分析得到多个行业群组和各自的特征，这个可以来发现不同行业之间的共性和差异性

（4）对销售数据进行聚类分析（比如以其中的地域聚类），可以告诉我们那些地域之间的共性和差异性

不难发现，我举的4个例子都是在发现共性和差异性。对的！我们了解了这些信息，可以指导我们的运营决策，对不同群组制定不同的策略。

下图是对地域数据做的聚类分析，得到的一个谱系图，我们从上往下看，首先是分成两大类

广东，天津，浙江，北京和上海这五个省市为一类，其余的多省为一类。

再往下看又分成了四大类，西藏作为单独一个分类，广东也作为单独的一个分类，天津和浙江为一类，北京和上海为一类。

从上往下，越分越细。红色的边框把多个省市划分成5个分类。一般没必要分得太细，这个数据目测是分成了20个细分的分类，除非是确实是需要细分到很细的时候，才需要看最低层的分类。

当我们知道天津和浙江聚为一类的时候，他们必然存在共性，才会聚在一起。当我们知道天津-浙江类和北京-上海类，作为两个不同的群组聚集，它们之间肯定是存在某种差异。

=======================================

下面，我们用上篇共享的数据，跟大家一起探讨聚类，和寻找他们的共性和差异性。

先处理下缺失值，选择清除数据里面的离群值

中间要选择需要处理的字段，选择好后，进入以下界面，也一样下一步即可

选择删除包含离群点的行（因为这里数据量不少，可以删了）

一般情况下，我们都避免直接修改源数据，需要新建一个变量或者空间或者工作表来存放处理过后的数据。这里选择复制到新的工作表就可以了。

数据处理好后，就可以进行聚类分析了。在数据挖掘套件里面直接选择聚类分析即可。

选择需要的数据进入模型里面

点击参数，然后就会看到下图这个对话框，可以手动输入数字来更改聚类算法，可以看到微软提供的聚类算法有4种，分别是可变的EM，固定的EM，可变的K-means跟固定K-means（EM是最大期望算法，K-means是K平均值算法，可变的是可以伸缩调整的，固定的就是固定不可调整的）

这里我输入4，选择固定的K-means算法

下图是选择测试集的比例，默认是30%。【测试集】是数据挖掘特有的名词，数据挖掘里头将数据集一分为二，大头的部分用来训练建立模型，称之为【训练集】，小的部分就用来测试模型，称之为【测试集】。这是数据挖掘和统计学最大的差异之一。统计学是通过统计方法来验证模型是否可靠，而数据挖掘技术是利用测试集来验证模型的可靠性。一般用于预测模型，聚类分析其实可以不用测试集，可以把数值改为0。但我就不改了。就用随机抽取出来的70%的数据来建立模型。