楼主: Lay.Terry
21851 16

[数据业务] 【连载】从零开始,教你做电商数据分析第七篇 [推广有奖]

学术权威

21%

还不是VIP/贵宾

-

威望
4
论坛币
214340 个
通用积分
1011.9746
学术水平
427 点
热心指数
197 点
信用等级
399 点
经验
69693 点
帖子
769
精华
50
在线时间
2606 小时
注册时间
2011-8-29
最后登录
2024-2-19

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
CDA数据分析行业专题课首次开班——本期专题“电商数据分析集训”
本次主讲老师:零一,详情请点击:
https://www.cda.cn/dianshang.html



【零一】#操作教程贴#从0开始,教你如何做数据分析#中阶#第七篇#
   数据分析最终要求业务落地,因此我们也是更多的去邀请一些行业内具有业务经验的朋友来分享各自的精彩观点。
   经派代网热门作者零一同意,论坛收录其关于淘宝数据分析的一些教程,今后将陆续进行刊载,最新文章将进行论坛首发,对电商方面感兴趣的朋友可以关注本系列贴。
   如果关注数据分析技能提高、相关培训和工作,欢迎订阅CDA数据分析师专版:https://bbs.pinggu.org/forum-244-1.html
   如果喜欢零一兄的分享文章的朋友,也请在帖子下方留言,聊聊自己的想法和希望学到的东西。我们会在适当的时候邀请零一在YY上跟大家免费分享一些他的“拙见”。贵在交流,希望让更多数据分析方面的菜鸟朋友们得到一些好的启发!
   如果希望看到一些经过挑选以后的数据分析方面的文章,也可以关注新浪微博@人大经济论坛数据分析师项目组
微信:CDA数据分析师

从零开始,教你做电商数据分析第一篇
从零开始,教你做电商数据分析第二篇
从零开始,教你做电商数据分析第三篇
从零开始,教你做电商数据分析第四篇
从零开始,教你做电商数据分析第五篇
从零开始,教你做电商数据分析第六篇



上篇
上次跟大家说过数据分析的4个任务,今天讲第一个任务,预测。

预测这个任务在很多场景可以应用到。比如

预测某行业未来的市场走势

预测买家会不会响应我们的营销主张

预测股票走势/预测福利彩票开奖号码

预测我们自己的体重/身高


大家可以发现,无论是商业还是生活都可以应用到,作为一名【业务】数据分析师而言(以下简称数据分析师,但特指业务数据分析师),当然不会什么事情都去做分析,那么,是什么因素决定了我们要去做分析呢?


答案是【商业价值】。

作为一名数据分析师应该以【商业价值】作为导向,我们的分析产生了商业价值,那么我们作为一名数据分析师才能有相应的价值。数据分析师的身价也因此而来。

数据分析师必不可少的4要素是

【思维】+【业务】+【工具】+【数据】

【思维】指分析思维,大家可以发现我正在一点一滴地传播给大家。

【业务】指业务能力,只有深入了解企业或者我们自己的业务需求,才能【点数成金】,如果今天我不小心请了一个完全不懂电商的数据分析师来帮我分析,那结果是堪忧的。因为他可能不知道什么是UV,什么是PV,什么是ROI,什么是直通车/钻展。

如果把数据分析师比喻成剑客,那【思维】和【业务】就是这个剑客的任督二脉了。

【工具】古人有云:工欲善其事,必先利其器,有工具才能高效丶精准地做出分析。【工具】就像剑客手中的宝剑一样。

【数据】数据分析师手里没有数据,也就不存在数据分析师了。【数据】就像剑客身体中的血液,连血液都木有,就活不下去了。

在Excel中,结合数据挖掘套件,可以非常简单地完成【预测】这个任务。

虽然鼠标点几下就可以完成【预测】,但是做【预测】的方法有好几种,分别是在不同的情况下应用的。如果用错了方法,可能程序就会报错。哪怕不报错,出来的结果也可能是差强人意的。

具体用哪种方法,我们根据的是什么呢?

答案是【数据类型】

数据分成3种类型,当然你们去看一些数据分析丶数据挖掘的书籍里面的分法可能会跟我的不一样。

【数据类型】分为【定量】,【定性】和【时间序列】。

【定量】就是我们的数字,1,2,3,4,5,6,7,8,9,0组成的数值,当数据是这种数值的时候,我们就可以把他归类为【定量】数据类型。

【定性】一般是字符型的数据,比如,中文丶英文就是一种字符型的数据。

【时间序列】跟定量非常接近,但不同的就是时间序列是时间格式的数据,那么我们看下电脑系统的时间,就是时间格式的数据,称之为【时间序列】。

对应的分析方法(不局限以下方法)

【定量】-【线性回归】

【定性】-【逻辑回归】

【时间序列】-【时间序列预测】

怎么选择就看我们要预测的维度,是根据哪种数据的变化来预测的。

比如,我们已知时间和销量,要预测未来的销量。只要维度里面有一个维度是时间,就应该选择【时间序列预测】。

如果已知高质宝贝数和成交量,要根据高质宝贝数啦预测成交量,就是通过【定量】预测【定量】,因而选择【线性回归】。

如果已知买家的地域,下单金额和购买件数,来预测买家会不会响应我的促销活动,我们预测的就是买家是否会重复购买,那就是会或不会的问题,是通过【定量】预测【定性】,类似这种预测结果是A或B或C……这种分类情况,就应该选择【逻辑回归】

下面3个例子来帮助大家掌握【预测】

1丶已知时间和成交量,要预测未来几个月的成交量

源数据如下



源数据挺多,仅截图一部分。





源数据可以是表也可以是我们选择的区域也是可以外部数据源,这里我们直接在表内选择数据区域。



时间戳会自动识别,前提是数据必须是日期格式的。(excel里面时间序列是日期格式)





查看模型结果



可以指定要预测多少个单位时间。



可以看到使用的是ARIMA算法,其实算法我们还可以在建立模型的时候进行设置,这里不解释太多。



模型建立后,可以用查询工具











结果如下图所示,给出时间戳丶预测的成交量和标准偏差。



2丶手上有高质宝贝数和成交量两个数据,假如现在已知未来几个月的高质宝贝数,通过这个来预测成交量。

数据源如下











参数中,我们可以选择算法还可以配置参数,这里我们选择线性回归即可,参数不解释。



定性集(国内翻译叫训练集)和测试集是数据挖掘中非常重要的一个概念。也是别于统计学的一个思想。统计学中是用统计方法来检验模型是否靠谱,而数据挖掘中,是将数据源拆分成两部分,一部分用来建立模型,这一部分数据称之为训练集。另一部分在模型建立后,回代入模型中,进行测试,看模型的准确率有高,这一部分数据称之为测试集。现在数据量很少,而且作为示例,可以把测试集的百分比设置为0,也就是不拆分数据,将所有的数据都用在建立模型上面。





在模型的窗口中会看到回归方程,如果不懂回归方程的,可以找一本高等数学的教材看看或者直接度娘。



打开查询工具,让模型做出预测。



下图中看到的高质宝贝数是已知条件,已知高质宝贝数,但成交量未知,这时模型会做出预测。





predict是预测的意思。这里是添加预测值作为输出。







输出结果如下,输出 1这个字段就是模型预测出来的结果。



3丶手头上有历史买家订单数据,买家的地域,下单金额和购买件数(只要处理下源数据,就可以得到是否重复购买这个数据,1表示会重复购买,0表示不会)









模型浏览中可以看到会重复购买的买家的特性,和不会重复购买的买家的特性。



假设下面是新的买家数据,那么我们要来预测下,这4位新的买家是否会重复购买,成为回头客。









结果如下,模型判定只有王六会重复购买。



第三个例子中有非常严重的问题,就是数据源太少,这里仅作为示例,数据源太少是做数据分析的一个大忌(当然某些时候不是)
下篇

HI~!我是零一,我的微信号是start_data,欢迎大家在微信上面交流。我们现在继续讲预测。

上篇跟大家介绍了数据挖掘的做法,微信的朋友就有人问了,那如果我不会用数据挖掘的算法就不能预测了吗?
答案是肯定可以的,不用数据挖掘的算法也一样可以通过数据来做预测。
既然是预测,伙伴们也不用纠结说预测得不准,能有个八成的准头就已经不错了。包括现在很多着名的数据挖掘案例,准头可能都没有个八成,不过因为是建立在大数据的基础上做的挖掘,有时候有个五成都能创造出价值了。
如果不用数据挖掘的算法,最高境界当属神奇的第六感了,这种我也无能为力。我只能讲我力所能及的通过数据来预测。

比如预测销量丶预测销售额等,我们可以直接用简单的环比增幅或者同比增幅来计算。
我们利用环比和同比增幅的公式,就可以推算出下列公式。(环/同比之前在初阶的文章中跟大家介绍过了)
=============================
本期数=上期数*(1+环比增幅)
本期数=同期数*(1+同比增幅)
=============================
用环比还是同比,其实都可以,但我们还要考虑趋势的问题,环比丶同比表达的就是趋势。
我们看下图,今年的趋势跟去年的趋势基本是一样的,那么,我们用环比或者同比都是可以,而且预测的效果也比较靠谱了。

如果今年跟去年的趋势不同,就结合环比和同比都计算出来预估值,然后求两者的平均值即可。
下面两个场景帮大家理解。
1丶老板让小白同学预测一下行业未来3个月(1季度)的销量。
首先拉出行业数据2012年1月到2013年7月,要预测2013年8丶9丶10三个月份的销量。先计算出环比和同比,同时把销量做出趋势图

然后把环比增幅也做出折线图,可以发现2012年和2013年的趋势是差不多的,因为2012年春节是1月份,也就是从2月份开始恢复正常销售,而2013年春节是2月份,也就是从3月份恢复正常销售。总体来讲,趋势是差不多的。

因此,我们可以用2012年8丶9丶10三个月的环比数据来作为预估。

将2012年8-10月份的环比数据代入2013年8-10月份,公式就用
本期数=上期数*(1+环比增幅)
先根据7月份的数据算出8月的销量,再根据8月算出9月,以此类推。
年月前面加个字母e,代表预测的意思。

算出来后如下图,我们可以发现,代用去年的环比增幅预测出来的销量的同比增幅跟7月份是一样的。也说用这种方法的特点,就是假设同比相同。

我们可以做出折线图,蓝色背景部分就是预测的销量了。小白同学完成任务。呵呵!


2丶老板让小白同学做一份未来3个月(1季度)店铺的销售计划,里面要预估一下未来3个月的销售额。
源数据如下,假设这个店就做了7个月的时间,从2013年1月份开始运营。

这种情况,方法其实很多。但准确率是让人非常头疼的,因为还涉及到供应链丶市场环境丶店铺运营规划等问题。
我就介绍一种比较靠谱的思路。
第一步,与老板丶市场负责人等熟悉本行业的相关人员协商,设定(最高或者最低)增幅基数,就假设最高10%/月,最低不低于2%的增幅发展。(也可以直接引用预估的行业增幅,不过可能会让运营人员鸭梨山大)
第二步,回到第一个任务,预测下行业的趋势,我们直接引用上面的结果
下图可以看到9月增长,8月和10月都有下降趋势。

因此,可以认为借着9月行业的增长,店铺也可以达到设定的最高增幅。8月行业持续下降,可以适当调低我们的增幅阈值。预计的结果如下

同样做出折线图,持续增长是个理想化的东西,只要行业波动不要太大,店铺的动作不要太大(如果某个月连续上聚划算会导致当月增长,过后可能会迎来一段持续下滑的时段),持续增长不是什么大问题。

最终在验收成果的时候,也是要结合实际的市场动态,如果市场增长的情况下,我方反而下滑,就不正常了。如果市场以100%的增幅快速增长,而我方仍然以10%的增幅蜗牛式增长,这也是有问题的。
或许,在本店资源供应正常的情况下,行业趋势就是运营的阅卷官吧!

不知不觉又到凌晨2点了,要培养一名数据分析师不是一件容易的事情,大家加油跟上吧。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:电商数据分析 数据分析 电商数据 从零开始 CDA数据分析师 从零开始 电商 连载

沙发
aibieli731001 发表于 2013-12-30 11:32:31 |只看作者 |坛友微信交流群
关注每一篇。

使用道具

藤椅
hxhhyy 发表于 2014-1-9 10:23:45 |只看作者 |坛友微信交流群
关注每一篇,如饥似渴啊

使用道具

板凳
德吉拉姆 发表于 2014-1-21 10:45:32 |只看作者 |坛友微信交流群
关注!!!!!!!!!!!

使用道具

报纸
德吉拉姆 发表于 2014-1-21 11:41:37 |只看作者 |坛友微信交流群
数据挖掘那部分的加载项在哪里

使用道具

地板
yatou952160 发表于 2014-2-16 13:00:53 |只看作者 |坛友微信交流群
德吉拉姆 发表于 2014-1-21 11:41
数据挖掘那部分的加载项在哪里
同样的问题 http://club.excelhome.net/thread-693145-1-1.html

使用道具

7
yatou952160 发表于 2014-2-16 13:01:44 |只看作者 |坛友微信交流群
数据挖掘加载项的处理详见http://club.excelhome.net/thread-693145-1-1.html

使用道具

8
fenghuangyufei 发表于 2014-2-24 17:33:19 |只看作者 |坛友微信交流群
又学习到了新东西啦。

使用道具

9
wcx163 发表于 2014-2-25 16:47:07 |只看作者 |坛友微信交流群
终于跟着做完了。。。

使用道具

10
qiangge87 发表于 2014-8-3 10:48:59 |只看作者 |坛友微信交流群
此贴必顶!受益匪浅

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-27 05:32