记得当初毕业的时候,第一份工作是数据分析员,当时看到Excel表上贴的很多数据都是计算频数、占比,然后感叹大学时候学的高级统计分析白学了,心里不断产生疑问,这算啥数据分析,太没有水平了吧。但后来跟着领导去和客户打交道的时候,才慢慢地改变了自己的那种对“频数、均值、百分比”基础统计分析不屑一顾的心态,没办法,当时年轻啊,心态高傲。通过入门师父的指导,后来明白了数据分析最重要的一点:
用最简单的统计分析数据,去发现数据背后的真相,才是真正的数据分析高手。而频数分析,则是考验数据分析高手知识是否扎实的基本功。
大家都知道“只要根基打得好,不怕高楼倒”,那么在数据分析中,基本功则可以判断一个数据分析师的真正水平。所以说:不会频数分析的数据分析师,你只是徒有其名,别在别人面前装逼。
对于频数分析,得到数据都是一些基本的指标,如:均值、中位数、众数、百分位数、方差、方差、最大值、最小值、偏度、峰度等,但就是这些基本数据,却是数据分析中不可忽视的数据。你了解了这些基本的数据,才能够真正地洞察数据的背后真相。
通过频数分析,可以了解数据的三个方面:
一、数据的集中趋势是怎么样的?可根据均值、中位数、众数、百分位数可以反映出来。
1)均值是啥?就是计算一列数据的平均值,其可以反映该数据的平均水平。
2)中位数呢?其就是一组数据按升序或降序排列后,如果样本数是奇数,则只需要取中间位置的数值;如果是偶数,则取中间两个数据的平均值。
3)众数是啥?它就是在一组数据中亮相频率最高的那个数值。
4)百分位数?就是将一组数据按升序排列后,排在前面的P%的数据时的右端点值成为数据的P分位数。如四分位数就是将数据分成4等分。
二、能够描述数据离散程度如何。常见的指标是方差、标准差、标准误差、极差。这个时候肯定有人会说:“你是不是在这里讲大学的概率统计课呢?这些我们大学时候都在课堂学过。”我可以对大家说:“我是在讲这些概率统计课,那又怎么样?但你们有没有真正地把这些知识用到现实的数据分析工作中去呢?“我可以担保几乎80%的数据分析师都肯定没把这些知识用到工作中去。那先说明这几个统计量的用处吧:
1)方差,是刻画样本数据关于均值的平均差平方的一个量,能够用来描述样本离散趋势。方差越大,表示样本值偏离样本均值的可能性就越大。
2)标准差,则是方差的开方,作用和方差差不多。
3)标准误差,则是描述样本均值和总体均值的平均偏差程度。
4)极差:数据中最大值与最小值之差。主要用来考察稳定性。
三、用来描述数据总体分布的形态。是否符合正态分布?还是左偏还是右偏呢?还是数据分布比较平缓呢?这些主要靠偏度和峰度两个指标来反映。
1)偏度,用来描述数据分布形态对称性程度。偏度绝对值越大,数据偏斜程度就越大。
2)峰度,用来分布形态陡缓程度。峰度绝对值越大,数据陡峭程度就越大。
注意:如果样本的偏度接近于0,而峰度接近于3,就可以判断总体的分布接近于正态分布。
说了一大堆理论,缺乏实际操作,都是忽悠的家伙。谁不会忽悠呢?那下面就通过工作中的小例子来说明一下频数分析在数据分析中的用处。
例如:客户提取了近48万的数据(部分数据如表所示),该批数据仅有城市、ARPU值,需要把这些数据背后隐藏的信息出来,应该如何做呢?
在SPSS的操作如下:
得到如下结果:
结果分析:
第一、集中趋势分析
本次共对477298个用户进行统计分析, ARPU均值(Mean)为104.04元、中位数 (Median)90.02、众数(Mode)为49。
第二、离散程度分析
ARPU值的方差(Variance)为4861.10、标准差(Std. Deviation)为 69.72,因为方差和标准差的值均比较大,说明了数据过于离散。
第三、分布分析
ARPU值的偏度(Skewness)为1.676,大于0,表示正偏,即是曲线向左偏。而峰度(Kurtosis)3.35,大于0,数值比较大,曲线比较陡峭。
因其不满足”偏度接近0,峰度接近3“的条件,说明数据不符合正态分布。
得到的直方图
从直方图可以得到:ARPU值过多集中在50元左右、100元左右、190元三个区间,ARPU过于集中背后应该需要结合目前用户使用的业务进行分析,从而得到背后的规律。如:是不是目前用户用得最多的产品价格是50块左右的?或者100元左右的?或190元左右的?
从频数分析里面,可以初步对数据的整体情况进行摸底,知道了数据主要集中在哪里,有助于后面的进一步分析,如对ARPU值进行分档统计等,这些是每个数据分析必须懂的。
所以,在进行数据分析时候,不能忽视最基本的分析方法。
转自:http://blog.sina.com.cn/s/blog_72e6be5701014s0r.html


雷达卡




京公网安备 11010802022788号







