楼主: Data-零一
604 1

[CDA数据分析师学习之路] 从0开始学电商数据分析-04 [推广有奖]

  • 0关注
  • 24粉丝

讲师版主

本科生

59%

还不是VIP/贵宾

-

威望
0
论坛币
1090 个
学术水平
1 点
热心指数
1 点
信用等级
0 点
经验
702 点
帖子
47
精华
0
在线时间
67 小时
注册时间
2014-4-8
最后登录
2017-9-19

Data-零一 发表于 2017-7-15 15:30:11 |显示全部楼层

大家好,我是零一,我是一名数据分析师,开发工程师,同时也是一名电商运营。七天螺旋和文章《7天教你打造爆款》相信大家都不陌生,出自本人之手。


今天是第四篇,给大家介绍下描述性统计。


所谓描述性统计,就是在描述数据。上一篇我们讲了数据可视化,将数字转变成图表,其实图表也是对数据的一种表述。


一组数据基本的描述指标有:最小值,1/4位数,中位数,3/4位数,最大值,这就是所谓的五数总括。

最小值很简单了,直接在excel里面敲入=min(),就能算最小值。有时候我们需要找出我们最低的销量是多少件,最低的转化率是多少?

最大值也是一样的道理,在excel里面是=max(),就能算出最大值。

接着是1/4位数丶中位数和3/4位数。如果没有接触过统计学的朋友会比较晕,不知道这个是什么来的。这三个数将数据切成4个等分的小数据集。

大家看下面的数列


1,50,10,100,2


最小值是1,最大值是100,1/4位数是50,中位数是10,3/4位数是100。

下面我们再看个例子,假如是8个人的业绩数据


1,2,3,4,5,6,7,8


最小值是1,最大值是8,1/4位数是2.25,中位数是4.5,3/4位数是6.75

而我们用得最多的是均值6.5,这里刚好跟中位数一样。

1.png

但是,我们再看下面另一组数据


1,2,3,4,5,6,7,100


最小值是1,最大值是100,1/4位数是2.25,中位数是4.5,3/4位数是6.75

除了最大值不一样,其他跟前面是一样的。我们看下均值,这里的均值是16,跟前面的不同了,这个100这么大的值可能是活动的效果,那这个时候,如果我拿均值来作为指标衡量前面8个人的业绩,就只有最后一个数据达标。当数据整体平稳,但前后有很大的异常值的时候,我们用均值来做指标参考就不靠谱了,这种情况更适合的是用中位数来作为指标。

2.png

在Excel里面,用MIN、QUARTILE.EXC、MAX,就可以得到这5个数。数据放在A1:A8 8个单元格中,利用下图的函数计算结果。

3.png

另一个指标,众数。

大家看下面这个数列,假如是客服的业绩


1,3,5,5,5,5,5,5,5,5,10,20


我们先算一下平均值,是6.167,如果用这个指标,这里12个数据里面,只有10和20这两个人达标。那么,这个时候,就要用众数了。所谓众数,就是出现的最多的一个数字,毋庸置疑,这里的众数是5,那么,就会有10个人达标了。

众数在excel里面是MODE.MULT。

4.png

非常简单就能算出来,特别是数据量大的时候,不用目测。

以上的指标是根据数据的分布情况来选用的,一般用散点图看一下,然后就能判断要使用哪个指标来作为参考。用散点图可以非常直观地发现离群点。将我们上面的一组数据画出散点图,如下图就会发现一个异常值。

5.png

当数据存在离群点的时候,可以避免采用均值来作为分析指标,也可以将离群点剔除后再用均值来分析。

--------------------------------------------------------------------------------------------------------------------------------------------------




支持楼主:购买VIP购买贵宾 购买后,论坛将把您花费的资金全部奖励给楼主,以表示您对TA发好贴的支持
 
载入中......
stata SPSS
西门高 发表于 2017-7-16 14:12:29 |显示全部楼层
谢谢分享
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 我要注册

GMT+8, 2017-9-22 21:24