统计数字可以帮助我们了解这些比较对象的优劣,让我们做出明智的决策。不光是个人,公司和国家也是这样做决策的。那么这样做对吗?
其...实...不...对
今天我们就来介绍一个让人非常头疼,但非常有用的悖论,它会告诉你,很多时候统计数字相当不可靠,特别容易误导人。
先来看一个假设的例子。
小明生了慢粒白血病,她的失散多年的哥哥找到有2家比较好的医院,医院A和医院B供小明选择就医。
小明的哥哥多方打听,搜集了这两家医院的统计数据,它们是这样的:
医院A最近接收的1000个病人里,有900个活着,100个死了。
医院B最近接收的1000个病人里,有800个活着,200个死了。
作为对统计学懵懵懂懂的普通人来说,看起来最明智的选择应该是医院A对吧,病人存活率很高有90%啊!总不可能选医院B吧,存活率只有80%啊。
呵呵,如果小明的选择是医院A,那么她就中计了。
就这么说吧,如果医院A最近接收的1000个病人里,有100个病人病情很严重,900个病人病情并不严重。
在这100个病情严重的病人里,有30个活下来了,其他70人死了。所以病重的病人在医院A的存活率是30%。
而在病情不严重的900个病人里,870个活着,30个人死了。所以病情不严重的病人在医院A的存活率是96.7%。
在医院B最近接收的1000个病人里,有400个病情很严重,其中210个人存活,因此病重的病人在医院B的存活率是52.5%。
有600个病人病情不严重,590个人存活,所以病情不严重的病人在医院B的存活率是98.3%。
画成表格,就是这样的——
医院A:
病情 | 死亡 | 存活 | 总数 | 存活率 |
严重 | 70 | 30 | 100 | 30% |
不严重 | 30 | 870 | 900 | 96.7% |
合计 | 100 | 900 | 1000 | 90% |
医院B:
病情 | 死亡 | 存活 | 总数 | 存活率 |
严重 | 190 | 210 | 400 | 52.5% |
不严重 | 10 | 590 | 600 | 98.3% |
合计 | 200 | 800 | 1000 | 80% |
你可以看到,在区分了病情严重和不严重的病人后,不管怎么看,最好的选择都是医院B。但是只看整体的存活率,医院A反而是更好的选择了。所谓远看是汪峰,近看白岩松,就是这个道理。
这让人很抓狂。万一我们真的患上了什么病,又遇到了这种类似的情况,岂不是会让自己掉坑里?大韩民国这么多小明就是因为这个原因去世的吗?到底这是怎么回事?
实际上,我们刚刚看到的例子,就是统计学中著名的黑魔法之一——辛普森悖论(Simpson's paradox)。辛普森悖论最初是英国数学家爱德华·H·辛普森(Edward H. Simpson)在1951年发现的。
辛普森悖论就是当你把数据拆开细看的时候,细节和整体趋势完全不同的现象。
辛普森悖论:同一组数据,整体的趋势和分组后的趋势完全不同。
从统计学家的观点来看,出现辛普森悖论的原因是因为这些数据中潜藏着一个魔鬼——潜在变量(lurking variable),比如在上面这个例子里,潜在变量就是病情严重程度不同的病人的占比。
辛普森悖论在日常生活中层出不穷。
最著名的辛普森悖论的实例,就是1973年加利福尼亚大学伯克利分校性别歧视案的例子。
加利福尼亚大学伯克利分校
大家从表格里可以看到,如果只看整体录取率,那么男生的录取率是44%,女生的是35%。
不求甚解的话,一般人肯定会得出这样的结论——女生被歧视了。打算申请这所著名大学的女生要是看到这样的数据,八成肺都气炸了。
男生 | 女生 | |||
申请人数 | 录取人数 | 申请人数 | 录取人数 | |
合计 | 8442 | 44% | 4321 | 35% |
别急,现在把上面的数据按照院系拆分,再来看看每个系的录取率。
院系 | 男生 | 女生 | ||
申请人数 | 录取比例 | 申请人数 | 录取比例 | |
A | 825 | 62% | 108 | 82% |
B | 560 | 63% | 25 | 68% |
C | 325 | 37% | 593 | 34% |
D | 417 | 33% | 375 | 35% |
E | 191 | 28% | 393 | 24% |
F | 373 | 6% | 341 | 7% |
你可以看到,在6个院系的4个里,女生的录取率大于男生,女生只在2个院系里容易折戟。加利福尼亚大学伯克利分校的统计学教授 Peter Bickel 后来发现,如果按照这样的分类,女生实际上比男生的录取率还高一点点。