掌握指标学会数据分析
被误解还是“被平均”
“2014年,发改委官员曾表示,我国人均GDP已达到6700多美元,属于中高收入国家的行列。目标是希望通过“十三五”的努力,用世界银行的标准接近高收入国家的行列。”
这则新闻报道其实说的并无不妥之处,按照理论来说,如果中国能保持目前的发展速度,那么10年左右进入高收入国家行列是顺理成章的事。到2020年,中国人均GDP达到1万美元也不是梦想。但很多人还是质疑自己可能“被高收入”了。
其实,我国民众对统计数据的“不适”已经不是第一次了,近年来,网络吐槽“被平均”、“被幸福”等情况屡屡出现。比如2012年,某大学发布的《中国民生发展报告2012》中提及,全国家庭的平均住房面积为116.4平方米。这个结论是不是让你很诧异?那么,到底是什么原因导致统计结论让人感觉与自身情况不符呢?
抛开理性,你会发现这种感觉其实很好理解。对于广大人民群众而言,要判断统计数据是否真实,最好的印证和参照物就是自身和周围的生活状况。如果你发现自己及周围人的情况和统计结论有不小的出入,那么感觉“被平均”就再自然不过了。但是如果仅凭统计数据和自身感受不一致就认为数据不正确,那就比较片面了。
引起误解的还有一个很巧妙的用词——“人均”。这一平均,很多数据就被“削峰填谷”、加权计算了,呈现在你眼前的是一个总体性指标,作为个体的你只能略作参考,它和个体数据还是有很大差异的。
下面讲解第一个重要知识点——平均数。先来看一道题。
假设有100人,他们的平均身高为163.5cm,请判断以下三句话的对错:
(1)身高低于和高于163.5cm的约各有50人。
(2)全部人员的身高加起来共16350cm。
(3)每10cm分成一组,160~170cm的人数是最多的。
在公布答案之前,先来看看这三句话分别涉及哪些概念。
- “他们的平均身高为163.5cm”——平均数(算术平均数)。
- “身高低于和高于163.5cm的约各有50人”——中位数。
- “每10cm分成一组,160~170cm的人数是最多的”——众数。
在统计学上把平均数分为两大类:数值平均数和位置平均数。前者包括算术平均数、加权平均数和几何平均数,后者包括中位数和众数。这几个指标通常用来描述总体均值情况,但它们是不是真的那么平均?要正确理解它们,还得回到指标的本质含义来探讨。
数值平均数——最熟悉的陌生人
1.算术平均数
算术平均数通常也称为均值,可分为简单算术平均数和加权算术平均数两类。在实际生活中,并不是每次计算均值时,各项都拥有相同的权重(相同权重时,称之为简单算术平均数),当各项权重不相等时,计算平均数时就要采用加权算术平均数。
一般简单算术平均数可以通过如下公式得到:
而加权算术平均数则是把原始数据按照合理的比例来计算。若在n个数中,x1出现f1次,x2出现f2次,…,xn出现fn次,那么加权平均数的公式可以如此推导:
式中,f1, f2,…, fn就是权数。
为了更好地理解,我们来看一个简单的例子。某人特别爱吃青菜,于是某个周日决定去买点青菜亲自下厨。当他兴冲冲地来到菜市场时,发现在甲摊位青菜卖2元/斤,而在乙摊位青菜卖3元/斤。由于不知道到底哪个摊位的菜更好,他决定从甲、乙两个摊位各购买1斤,求平均价格。
这种情况很简单,可直接用简单算术平均数的公式求得平均价格为:(2+3)/(1+1)=2.5(元/斤)。
现在假定其他条件不变,若从甲摊位购买2斤,从乙摊位购买1斤,再来求平均价格。加权算术平均数=(2*2+1*3)/(2+1)=2.3(元/斤)。
在这个例子中,我们所选用的是同一种蔬菜,具有同质性。但在运用算术平均数的时候往往忽略了这个内涵要求,从而导致结果有失偏颇。比如,在电梯里,你的体重是120斤,有个小孩的体重是80斤,还有一个箱子重400斤,平均重量是(120+80+400)/3=200(斤)。这时,能说三者的平均重量是200斤吗?这个均值只能说明电梯负重了多少,此时的平均重量并没有什么参考意义。
算术平均数虽然计算简单、理解方便,但它有一个致命的缺点——容易受到异常值的影响。
2.几何平均数
比起众所周知的算术平均数,几何平均数就显得有点小众,但是几何平均数有着无可替代的地位。既然取名为几何平均数,那么它自然是具有几何意义的。可是,一个平均数怎么会和几何有关?其实在中国古代数学书中提到矩形面积时,往往就是用长、宽的几何平均数来表示的。我们来看看到底什么是几何平均数。
几何平均数是指n个观察值连乘积的n次方根,公式如下:
仅有公式,还是没有看到它的“几何”在哪。别急,先来看下面这张图:
所谓几何关系,可以这样理解:过一个圆的直径上任意一点作垂线,直径被分开的两部分为a,b,那么这条垂线在圆内的一半长度就是(ab)^0.5,并且(a+b)/2≥(ab)^0.5。一般来说,几何平均数主要用于以下几个方面:
- 用来对比率、指数等进行平均。
- 用来计算平均发展速度。
- 用来计算复利下的平均年利率。
综上,不同的数值平均数有着不同的适用范围:算术平均数适用于简单且较直观地表现中心位置;当数据呈倍数关系或不对称分布时(增长率或生长率、动态发展速度),适合使用几何平均数。
位置平均数——关键的排序
如果非要用一个词来区分位置平均数和数值平均数的区别,则可以用“次序”一词。在计算数值平均数的时候,一般不会刻意地对数据进行从小到大的排序,而是直接将数值和权数一并放入算式中,计算得出一个平均数。但是位置平均数则完全不同,不同到有时只需从小到大排序,或者把每个数值出现的次数从少到多排序,无须计算就可以得到一个均值。下面来看看两个位置平均数的代表:中位数和众数。
1.中位数
中位数是中间位置的数字。中位数将所有的观察值一分为二,一半的数字比它大,另一半的数字比它小。那么,现实问题中如何求得中位数?在需要求得中位数时,首先需要把所有的观察值从小到大进行排序。举个例子:小时候,老师最喜欢在考完试后进行排名,这就是一个排序过程。如果该班级共有51名学生,那么考试成绩从最低分(或最高分)开始依次排序,直至最高分(或最低分),这样就会得到一组递增(或递减)的数据。51名学生正好第26名是中间者,我们就选他的考分作为考试成绩的中位数。但如果有52名学生呢?如果把人数一分为二,排名第26、27位的两名学生均处在中位,该怎么选?可见,求中位数有一个注意点,那就是观察值的个数是奇还是偶。如果观察值的个数是奇数,那么求适中的数值即可;如果观察值的个数是偶数,那么通常取最中间的两个数值的算术平均数作为中位数。用公式描述如下。
若有观察值x1,x2,…,xn,若n为奇数,则中位数为
若n为偶数,则中位数为
公式很简单,理解也不难,但什么时候适合用中位数呢?若要回答这个问题,就要回到本章开头所提的那个问题:你是不是总觉得自己在各种数据面前有“被平均”之感?
举个例子:2014年全国平均工资为4.99万元,月平均工资为4000多元,这也就罢了;北京的平均工资达77 560元,月平均工资为6463元,这就很让人艳羡了;尤其是,全市城镇非私营单位就业人员年平均工资为102268元,月均达8522元——对于大部分人而言,岂不是“拖后腿”、“被平均”?了解了算术平均数你会发现,公布的数据可能并没有问题,问题在于工资收入的分布是否适合使用算术平均数来表示均值?我们来看看工资的大致分布图,如图2.1所示。
图2.1 工资收入均值分布图
从图2.1中可以看出,一般来说,一个人群中的工资收入分布,众数往往偏左,而平均数往往偏右。这说明低收入人群占多数,高收入人群占少数,工资收入呈偏态分布。而从报道中的数据可以推测,导致平均工资如此高的原因是那部分人数少但收入高的人群拉高了均值。
所以,一般情况下,对于收入、房价等数据,在公布算术平均数的同时需要公布中位数作为参考,这样的数据会更有实际意义。
这也就引出了以中位数为代表的位置平均数的一些特点:
- 中位数是以它在所有观察值中所处的位置确定的全体单位的代表值,不受分布数列的极大值或极小值影响,从而在一定程度上提高了中位数对分布数列的代表性。
- 有些离散型变量的单项式数列,当数据分布偏态时,中位数的代表性会受到影响。
2.众数
众数是位置平均数中的另一个重要代表,它将各观察值出现的次数记录下来,选择出现次数最高的观察值作为均值。但是,如果遇到不同的观察值出现同样的次数(且都是最高的)时,怎么办?解决方法是全部命名为众数。所以众数是三大平均数代表中仅有的不唯一取值代表。
比如,对某幅图进行评价,5位观众分别给出9分、7分、9分、8分、6分。如果用简单算术平均数来计算,则平均分为7.8分;若对其进行排序,则为6,7,8,9,9,中位数为8;如果通过观察值的出现次数来排序,则6、7、8分都出现1次,9分出现2次,则众数为9。可以看出,不同的方法计算出来的均值都不相同。
通过这个案例,看到了不同的平均数之间所具有的区别和联系:只有在所使用的观察值分布呈现偏态(不对称)的情况下,才会出现平均数、中位数和众数的区别。所以,如果观察值呈正态分布,任何统计量都不会出现太大偏差;如果偏态的情况很严重,则可以考虑算术平均数,并辅助参考中位数。
最后依旧打个小广告:
附上购买链接: 京东购买请点击
当当购买请点击
亚马逊购买请点击