人大经济论坛 › 论坛 › 经济学人二区 › 学术道德监督 › 这个著名的统计学悖论，第一次听说的人很可能怀疑人生

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

12 3 4 5 6 7 8 9 10 ... 16 下一页

发帖

楼主: nice生活圈

31548 155

[论文写作规范] 这个著名的统计学悖论，第一次听说的人很可能怀疑人生 [推广有奖]

1关注
178
粉丝

院士

17%

还不是VIP/贵宾

TA的文库 其他...

经管学术人

威望: 2 级
论坛币: 421 个
通用积分: 5680.8213
学术水平: 563 点
热心指数: 689 点
信用等级: 535 点
经验: 112117 点
帖子: 1197
精华: 6
在线时间: 936 小时
注册时间: 2014-8-22
最后登录: 2022-7-8

楼主

nice生活圈

发表于 2018-11-28 10:45:29 |只看作者 |坛友微信交流群|倒序 |AI写论文

相似文件

换一批

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

我们平时在做重大决策的时候，比如择校啊，选专业啊，总是会参考这些比较对象的硬指标，比如它们的录取率啊，就业率啊等等。像是，哪个学校的就业率高，我们就会去报考这个学校。

统计数字可以帮助我们了解这些比较对象的优劣，让我们做出明智的决策。不光是个人，公司和国家也是这样做决策的。那么这样做对吗？

其...实...不...对

今天我们就来介绍一个让人非常头疼，但非常有用的悖论，它会告诉你，很多时候统计数字相当不可靠，特别容易误导人。

先来看一个假设的例子。

小明生了慢粒白血病，她的失散多年的哥哥找到有2家比较好的医院，医院A和医院B供小明选择就医。

小明的哥哥多方打听，搜集了这两家医院的统计数据，它们是这样的：

医院A最近接收的1000个病人里，有900个活着，100个死了。

医院B最近接收的1000个病人里，有800个活着，200个死了。

作为对统计学懵懵懂懂的普通人来说，看起来最明智的选择应该是医院A对吧，病人存活率很高有90%啊！总不可能选医院B吧，存活率只有80%啊。

呵呵，如果小明的选择是医院A，那么她就中计了。

就这么说吧，如果医院A最近接收的1000个病人里，有100个病人病情很严重，900个病人病情并不严重。

在这100个病情严重的病人里，有30个活下来了，其他70人死了。所以病重的病人在医院A的存活率是30%。

而在病情不严重的900个病人里，870个活着，30个人死了。所以病情不严重的病人在医院A的存活率是96.7%。

在医院B最近接收的1000个病人里，有400个病情很严重，其中210个人存活，因此病重的病人在医院B的存活率是52.5%。

有600个病人病情不严重，590个人存活，所以病情不严重的病人在医院B的存活率是98.3%。

画成表格，就是这样的——

医院A：

病情	死亡	存活	总数	存活率
严重	70	30	100	30%
不严重	30	870	900	96.7%
合计	100	900	1000	90%

医院B：

病情	死亡	存活	总数	存活率
严重	190	210	400	52.5%
不严重	10	590	600	98.3%
合计	200	800	1000	80%

你可以看到，在区分了病情严重和不严重的病人后，不管怎么看，最好的选择都是医院B。但是只看整体的存活率，医院A反而是更好的选择了。所谓远看是汪峰，近看白岩松，就是这个道理。

这让人很抓狂。万一我们真的患上了什么病，又遇到了这种类似的情况，岂不是会让自己掉坑里？大韩民国这么多小明就是因为这个原因去世的吗？到底这是怎么回事？

实际上，我们刚刚看到的例子，就是统计学中著名的黑魔法之一——辛普森悖论（Simpson's paradox）。辛普森悖论最初是英国数学家爱德华·H·辛普森（Edward H. Simpson）在1951年发现的。

辛普森悖论就是当你把数据拆开细看的时候，细节和整体趋势完全不同的现象。

辛普森悖论：同一组数据，整体的趋势和分组后的趋势完全不同。

从统计学家的观点来看，出现辛普森悖论的原因是因为这些数据中潜藏着一个魔鬼——潜在变量（lurking variable），比如在上面这个例子里，潜在变量就是病情严重程度不同的病人的占比。

辛普森悖论在日常生活中层出不穷。

最著名的辛普森悖论的实例，就是1973年加利福尼亚大学伯克利分校性别歧视案的例子。

加利福尼亚大学伯克利分校

大家从表格里可以看到，如果只看整体录取率，那么男生的录取率是44%，女生的是35%。

不求甚解的话，一般人肯定会得出这样的结论——女生被歧视了。打算申请这所著名大学的女生要是看到这样的数据，八成肺都气炸了。

	男生		女生
	申请人数	录取人数	申请人数	录取人数
合计	8442	44%	4321	35%

别急，现在把上面的数据按照院系拆分，再来看看每个系的录取率。

院系	男生		女生
院系	申请人数	录取比例	申请人数	录取比例
A	825	62%	108	82%
B	560	63%	25	68%
C	325	37%	593	34%
D	417	33%	375	35%
E	191	28%	393	24%
F	373	6%	341	7%

你可以看到，在6个院系的4个里，女生的录取率大于男生，女生只在2个院系里容易折戟。加利福尼亚大学伯克利分校的统计学教授 Peter Bickel 后来发现，如果按照这样的分类，女生实际上比男生的录取率还高一点点。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏391 回帖

本帖被以下文库推荐

· 精华热门帖子|主题: 1618, 订阅: 45

教你如何在论坛赚取现金：[url=https://bbs.pinggu.org/z_prj.php]https://bbs.pinggu.org/z_prj.php[/url]

[url=https://bbs.pinggu.org/thread-6882733-1-1.html]经管之家-邀请您加入我们的项目服务电商https://bbs.pinggu.org/thread-6882733-1-1.html[/url]

使用道具举报

沙发

nice生活圈

发表于 2018-11-28 10:51:06 |只看作者 |坛友微信交流群

Bickel 认为，在这个案例中，辛普森悖论出现的原因是，女生更愿意申请那些竞争压力很大的院系（比如英语系），但是男生却更愿意申请那些相对容易进的院系（比如工程学系）。辛普森悖论真是太奇怪了。

再比如这个经典的佛罗里达死刑悖论。

1991年，科罗拉多大学的统计学家 Michael L. Radelet 和东北大学的社会学研究院主任 Glenn Pierce 重新查看了1976-1987年间美国佛罗里达州的谋杀案的审判数据，发现了重大的司法不公正事件。

从归总的数据来看，佛罗里达的法官在审判的时候并没有偏向白人，因为白人嫌疑人的死刑率甚至还比黑人高一些。

嫌疑人种族	死刑人数	非死刑人数	死刑百分比%
白人	53	430	11
黑人	15	176	7.9

但是，如果按照被害人的种族来分割数据的话，我们就会看到很不一样的结果了——黑人比白人更容易被判死刑。

被害人种族	嫌疑人种族	死刑人数	非死刑人数	死刑百分比%
白人	白人	53	414	11.3
白人	黑人	11	37	22.9
黑人	白人	0	16	0
黑人	黑人	4	139	2.8

现在你可以很明显地看出，不管被害人是什么种族，黑人比白人更有可能被判死刑。

这还不算。分类后的数据显示，如果受害人是白人，那么嫌疑人就更容易被判死刑。如果被害人是黑人，嫌疑人被判死刑的可能性很低。种族歧视昭然若揭啊。

所以，我们要怎样才能避免辛普森悖论呢？

答案是…很难。不少统计学家认为，辛普森悖论的存在，让我们不可能光用统计数字来推导准确的因果关系。

因为数据可以用各种各样的方式分类，然后再进行比较，所以理论上潜在变量无穷无尽，你总是可以用某个潜在变量得到某种结论。

而且对于那些不怀好意的人来说，他们很容易对数据进行拆分或者归总，得到一个对自己有利的指标，从而来迷惑甚至操纵他人。医学和社会学的研究者也常常会遇到辛普森悖论，从而得出错误的结论。

辛普森悖论完美地阐释了这句古老的哲学寓言：“假如一棵树在森林里倒下而没有人在附近听见，它有没有发出声音？”如果有一个邪恶的潜在变量逃脱了你的眼睛，那么统计数字得出的结论还可信吗？

我们能做的，就是仔细地研究分析各种影响因素，不要笼统概括地、浅尝辄止地看问题。

什么，你要我举个利用辛普森悖论操纵别人的例子？

很简单啊。那些常说“我是聪明的小朋友里最漂亮的，漂亮的小朋友里最聪明的”小孩，一般都是既不_____，也不_____的。

已有 7 人评分	经验	论坛币	学术水平	热心指数	收起理由
灯盏无熙		+ 2			精彩帖子
shanghai8384			+ 3	+ 3	精彩帖子
hippocrene			+ 1	+ 1	精彩帖子
rhapsodyr				+ 2	鼓励积极发帖讨论
unparalleled	+ 20				精彩帖子
remlus	+ 100				精彩帖子
giresse	+ 20				精彩帖子

总评分: 经验 + 140 论坛币 + 2 学术水平 + 4 热心指数 + 6 查看全部评分

使用道具举报

藤椅

花落若相惜

发表于 2018-11-28 10:53:46 |只看作者 |坛友微信交流群

已有 1 人评分	经验	收起理由
unparalleled	+ 20	精彩帖子

总评分: 经验 + 20 查看全部评分

使用道具举报

板凳

情有毒盅 发表于 2018-11-28 10:54:44 |只看作者 |坛友微信交流群

花落若相惜发表于 2018-11-28 10:53

{:3_48:}

已有 1 人评分	经验	收起理由
unparalleled	+ 20	精彩帖子

总评分: 经验 + 20 查看全部评分

使用道具举报

报纸

旧时空

发表于 2018-11-28 10:55:39 |只看作者 |坛友微信交流群

已有 1 人评分	经验	收起理由
unparalleled	+ 20	精彩帖子

总评分: 经验 + 20 查看全部评分

使用道具举报

地板

nice生活圈

发表于 2018-11-28 10:58:17 |只看作者 |坛友微信交流群

已有 1 人评分	经验	收起理由
unparalleled	+ 20	精彩帖子

总评分: 经验 + 20 查看全部评分

使用道具举报

7楼

GKINGLIU

发表于 2018-11-28 11:27:48 |只看作者 |坛友微信交流群

一句话总结：不想当裁缝的厨子不是好司机~~

已有 1 人评分	经验	收起理由
unparalleled	+ 20	精彩帖子

总评分: 经验 + 20 查看全部评分

使用道具举报

8楼

hzhangchina 发表于 2018-11-28 11:53:07 |只看作者 |坛友微信交流群

基本上已经被大家承认~~现实很精彩，只是我们找机制的能力太弱

已有 2 人评分	经验	收起理由
chengzhifu2013	+ 40	精彩帖子
unparalleled	+ 20	精彩帖子

总评分: 经验 + 60 查看全部评分

使用道具举报

9楼

xujingjun 发表于 2018-11-28 11:55:36 |只看作者 |坛友微信交流群

已有 1 人评分	经验	收起理由
unparalleled	+ 20	精彩帖子

总评分: 经验 + 20 查看全部评分

使用道具举报

10楼

jeffyangsir 发表于 2018-11-28 12:01:04 |只看作者 |坛友微信交流群

已有 1 人评分	经验	收起理由
unparalleled	+ 20	精彩帖子

总评分: 经验 + 20 查看全部评分

使用道具举报

返回列表

12 3 4 5 6 7 8 9 10 ... 16 下一页

发帖

本版微信群

加好友,备注ddjd
拉您入交流群

手机版 |

意见反馈 |

帮助 |

新手入门 |

用户手册 |

友情链接 |

如有投资本站、合作意向或投放广告，请联系：13661292478（刘老师）

联系客服

邮箱：service@pinggu.org 投诉或不良信息处理：（010-68466864）

京ICP备16021002-2号京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明

[论文写作规范] 这个著名的统计学悖论，第一次听说的人很可能怀疑人生 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本帖被以下文库推荐

初级热心勋章

中级热心勋章

高级热心勋章

初级信用勋章

特级热心勋章

中级信用勋章

本版微信群

[论文写作规范] 这个著名的统计学悖论，第一次听说的人很可能怀疑人生 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本帖被以下文库推荐

初级热心勋章

中级热心勋章

高级热心勋章

初级信用勋章

特级热心勋章

中级信用勋章

本版微信群

扫码加我拉你入群