网易新闻《数读》栏目上周发表的一篇题为《中国婴儿死亡原因调查:出生期病症最“夺命”》(http://data.163.com/13/1229/23/9HA44EAL00014MTN.html)的文章及读者评论吸引了我的注意。“用数据说话”,这是数读栏目的宗旨,也是促使我在阅读时采用稍高于常规新闻的评价标准的原因。
数据异常
这张螺旋状的气泡图传达的是一个结构化的双分类数据:城市和农村、11种死亡原因,一共22个数据点。经过一番艰难的城乡对比后,首先有了一个重要发现:农村的死亡率合计数据(639)较城市地区(518)高出两成以上,而具体到各项死亡原因,农村地区的死亡率却大都低于城市,农村各单项数据的简单加总也大幅低于合计数,存在明显异常。我的第一个想法是:鉴于有如此之多的死亡案例未分类或统计,农村地区可能存在严重的医疗管理问题,这个数据信息要比新闻标题中的“出生期病症最夺命”要重要得多。职业习惯驱使我做了一番核查,结果发现是新闻中的数据存在严重错误, 638.61(每十万人)是全部农村人口的死亡率,对应婴儿的准确数据应是427.6。这篇新闻还存在其他一些数据引用错误及数据遗漏,不足为奇。另外卫生部公布的粗死亡率(CMR)和婴儿死亡率(IMR)在城乡表现上的反差也反映出一些社会问题,但这些并非这篇文章接下来所要探讨的主题。
要表达什么?
假设你是一名制作者,想用这些数据表达什么?比如下面这个可以自行补充的清单:
1)中国婴儿死亡率在国际上处于什么位置;
2)婴儿死亡率的历史变动情况;
3)婴儿死亡率的城乡区别;
4)婴儿死亡的不同原因;
5)数据探索:如婴儿死亡率和经济发展、城市化、人口流动及其他社会环境变量的关系。
现在,换成一名普通读者,你对以上哪些主题更感兴趣?部分是由于这张图奇异的对称形状,部分是职业习惯,我首先想到的是城乡对比,其次是国际比较和历史变动。从新闻评论中也可以大致看出一般读者的兴趣所在。
城乡对比并非该图作者的兴趣所在:同一种死亡原因使用了不同的颜色、气泡放于不同的位置(对比下城市和农村的12点钟位置),这些都是在为对比设置障碍,似乎在有意识地提防读者“前注意过程”的介入。对历史变动,作者用了一张折线图反映2003年至2012年的婴儿死亡率变化。至于国际比较,新闻直接用了一段文字:“(中国的)这一水平居于世界第72位,落后于泰国、俄罗斯等国,与叙利亚接近”。显然,新闻想传达的是婴儿死亡原因,并强调“出生期病症最夺命”。问题是:新生第一周的死亡率要高于婴儿的其他发育阶段,难道不是常识?
图解
作为普通的公共卫生数据,各国婴儿死亡率较容易获得。用图表来描述婴儿死亡率的国际比较和具体国家的历史变动存在多样化的选择,比如大众读者经常见到的地图表达:
考虑到这篇文章所面向的读者类型,经过权衡,我选择了下面这张稍微专业一些的图表表达,旨在同时反映:
1)世界各国婴儿死亡率的分布情况及变动;
2)特定国家的婴儿死亡率水平、相对位置和演变趋势。
图中的每一个短折线代表一个国家的婴儿死亡率数据,灰色柱形代表从第一个四分位(25%)至第三个四分位(75%)的数据区间(即一半国家的数据都落于该区间),柱形内的黑色长折线代表中位水平,三条折线从高到低分别是:世界平均、中国和OECD国家综合水平。
从这张图能看出那些数据信息?
首先是40多年来全球婴儿死亡率的整体分布形态的变化:整体下降并由分散趋于集中,表现在柱形高度不断缩小和中位数的下移,中位数以上国家婴儿死亡率的离散程度要大大超过中位数以下国家。高点值的下降更为显著,如1970年的最大值高达215(每千人),2012年降至120左右。这是典型的边际作用。
其次是不同国家或组织先后进入平台期,进入21世纪后,婴儿死亡率的中位数下降速度明显趋缓,代表发达国家的OECD组织则于更早时间点进入平台期,越来越趋于“自然水平”。
第三,从图表能直观地看出发生于1985-1990的异常:世界各国婴儿死亡率的分布区间和离散度有所恶化,中国的曲线也表明我国婴儿死亡率在此期间不降反升,我不知道原因何在。
再看中国的表现,40多年来中国婴儿死亡率多数时期处于世界各国中位数水平以下,除85-90年期间经历的“下降停滞”外,总体来看下降速度大幅高于OECD组织,在OECD和世界平均之间从接近世界平均转变为接近OECD水平,在中等偏上收入(upper middle)国家中处于领先位置。
分析师常用的另一种比较是平移法,比如将中国目前的水平和其他国家(通常是发达国家)在历史上发生类似数据的时间点进行对比,据此,2012年中国婴儿死亡率对应的是70年代初的日本、80年代初的英美和80年代末期的OECD国家平均水平。
新闻中特意挑选了“泰国、俄罗斯和叙利亚”三国作为中国的比较,看起来无论在哪一方面都不太像通常用来和中国做比较的国家,那么反映在图表是什么情况?随着生活水平、营养、医疗护理和公共卫生的改善,所有的国家都在或快或慢地朝着“自然水平”前进,以累计下降幅度衡量,40多年间中国的表现超过上述三国。你也可以使用“年均下降速度”来衡量各国表现,结果和下图中表现出来的斜率差异完全相同。
这篇网易新闻的最后一句话是“据慈善组织save the children的报告,2012年中国婴儿…首月死亡率为9‰,死亡人数高达143,400,居世界第4位。”,此类数据的可靠性暂且不论,到底是死亡率还是死亡人数居世界前4呢?如果是死亡人数,这就好比说“某某疾病每年都在持续增长”,统计学家会告诉你这种表达毫无意义。
用数据说话的另一层含义是要向读者传达尽可能客观、不受编辑个人观点左右的信息。可惜的是,类似时下流行的诸多信息图,有很多颜色、许多形状用于表达文字、关系和流程,但你就是很难看到数据。
《Excel图表的金融应用》课程介绍更多有关Excel图表金融应用的设计准则和最佳实践,欢迎访问课程页面了解详情:http://www.jinduoduo.net/goods.php?id=31。
试听课程:http://www.jinduoduo.net/news.php?id=91。
讲师微博:@Excel图表金融
QQ群:30888182