楼主: daazx
26373 99

P值之死   [推广有奖]

  • 0关注
  • 53粉丝

VIP

教授

2%

还不是VIP/贵宾

-

TA的文库  其他...

Hadoop与大数据

威望
0
论坛币
50036 个
通用积分
7.1159
学术水平
176 点
热心指数
197 点
信用等级
114 点
经验
11003 点
帖子
446
精华
3
在线时间
1069 小时
注册时间
2007-10-19
最后登录
2021-6-1
毕业学校
深圳大学

楼主
daazx 在职认证  发表于 2014-7-4 14:56:20 |只看作者 |坛友微信交流群|倒序 |AI写论文
相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

P值之死

———————————————————————

新浪微博:@数说工作室网站 @人大经济论坛

微信公众号:数说工作室   

网址:www.jiayounet.com   

———————————————————————

       有一天,我走进统计学的神殿 ,将所有谎言都装进原假设的盒子里,

       “P值为零”,

       一个声音传来,

       “但你已经不能再拒绝,因为,P值已经死了”

       从此,这个世界上充斥着谎言。



一、一个悲伤的故事:破灭的年少成名之梦


       首先跟大家说一个悲伤的故事,该故事来源于nature最近发布的一篇文章“statistical errors”,我把这个故事叫做“破灭的年少成名之梦”

       话说,弗吉尼亚大学有一位意气风发俊朗不凡的博士研究生莫德尔。


1.jpg


       他做了一项关于关于政治极端分子的行为研究,样本大约有2000个人群,结果发现,相比较政治极端分子,政治温和派似乎更能辨别不同色度的灰色。


2.jpg


       莫德尔对这项发现非常得意,因为数据也给出了非常积极的结果,统计结果显示P值为0.01,这意味着结果“非常显著”。莫老兄十分有把握能把自己的论文发表在高影响因子的刊物上。


3.jpg


       由于担心实验结果陷入再现性争论,莫兄和他的导师决定重复实验,但是,在添加了新的数据之后,P值变成了0.59,这连0.05的显著性水平都没有达到!


       伤心绝望的莫老兄知道,他观察的心理学效应站不住脚了,一同破灭的,还有那颗年少成名的美丽梦想。


4.jpg


       实际上,问题并不在数据中,而是P值出了问题,正如罗斯福大学的经济学家史蒂芬所说,“P值没有起到人们期望的作用,因为它压根就不可能起到这个作用。”


5.jpg


       为什么呢?为什么P值没有达到人们的期望?它的问题到底在哪?现在和数说君一起来梳理一下P值和假设检验的历史,并从中寻找答案吧。


6.jpg


二、 P值和假设检验的历史


       1.  拉普拉斯


       P值得历史可以追溯到1770年,数学家拉普拉斯在处理50万左右的生育数据时,发现男性的生育率超过女性,对于这个无法解释的“超越”,他计算了一个叫做 “P值”的东西,以确定这个“超越”是真实的(Stigler 1986, P.134)。


       2.  Karl Pearson


       很多统计学家误以为关于P值的正式文献是费雪发表的,其实不然,最早在文献中正式阐述P值及其计算的,是统计学家Karl Pearson,你可能不了解他,但是他的Pearson卡方检验你一定知道,这篇关于卡方检验的文章当时被发表在《哲学杂志》上,文章中一同被介绍的,还有一个被叫做“P值”的东东,见史料。


7.jpg


        3.  Fisher


       P值能风靡学术界这么多年,费雪是第一推手,被他推动的除了P值,还有被称为“费雪学派”(Fisherian)的假设检验思想。简单介绍下他的思想:

       如果我们想要检验一个样本是否来自某个分布已知的总体,首先要建立一个“原假设”(null hypothesis),比如,下图的例子我们假设该样本来自正态总体N(m0,σ),那么原假设为:

H0:m=m0

       但实际上我们得到的样本均值不是m0,而是 8.jpg

,那么Fisher他老人家当时的想法是:在一个样本均值为m0的正态总体中,抽样得到这个均值为的样本的几率会有多大?我要是能计算出这个概率,就知道“这个样本来自该总体”这件事有多靠谱了,如果概率太小,就认为是不靠谱的事情,那么就可以认定这个假设是错的。这就是假设检验里的“小概率事件原理”,这个概率就是后来风靡学术界的“P值”,一般认为概率小于5%,就是不靠谱的事情,则需要拒绝原假设。

       到此为止,Fisher大神只字未提“备择假设”,也从没说任何关于“接受”某个假设的事情,在Fisher的检验哲学里,


              Ø  检验是基于无限总体中抽出的一个(注意是一个)样本;


              Ø  显著性检验的基础是基于原假设而得出的假想概率,这些检验不能导出任何关于真实世界的概率论断。


       因此,费雪以及他的P值检验思想,从来没有涉及到“备择假设”的概念,没有被认为可以用来证明某个假设是对的

9.jpg

         4. Neyman-Pearson


       后来流行的“备择假设”的概念是在另一个重要的检验思想里提出的,即Neyman-Pearson(以下简称N-P)检验思想。N-P学派发源于费雪的思想,但却与之不太一样,他们两派相互争论了很多年。相比较于Fisher学派,Neyman他们主要有三个不同:

       (1)  引入备择假设

       Neyman本人曾说,“接受一个假设H,仅仅意味着采用决策A要比决策B好,并不能说明我们必须要相信假设H就是对的。”

       (2)  引入两种错误:第一类错误和第二类错误

       第一类错误是指拒绝了一个正确的原假设(α),第二类错误是指接受了一个错误的原假设(β);      

       Power=1-β,被称为检验效力,它代表着拒绝一个错误假设的概率;

       N-P的检验思想是,控制第一类错误(一般事先给定),使得第二类错误的值越小越好,即power越大越好。


t.jpg


10.jpg



       (3)  使用拒绝域来进行检验


       在N-P的思想框中,完全没有提到P值,他们使用拒绝域来对假设进行判别,具体检验思想见下图:

12(1).jpg

12(2).jpg


       4)  错误的混合


       比较以上两个检验我们发现,Fisherian和N-P的检验思想完全不同,


              Ø  费雪学派的P值检验思想,没有涉及备择假设,也从来没有被严格证明可以用来证明某个假设是对的。实际上,当我们抽取的样本变化时,得到的P值也会变化,结论也会随之变化。


              Ø  N-P学派使用备择假设,在判定是接受还是拒绝某个假设的时,同时会给出两类错误以及power作为辅助参考,但是该学派(包括Neyman本人)从来不承认“P值”这个东西。虽然样本不同,他们的结论也会不同,但是N-P方法会在每个结论的后面给出相应的power,说明该结论的靠谱程度,相对于P值检验,这个方法更加规则严密。


              Ø  Fisher和Neyman两人知道对方的观点,但是彼此都不能相容,Neyman批评Fisher的某些工作从数学上讲比“毫无用处”还糟,Fisher对Neyman方法给出的评价是“无比幼稚”、“在西方学界中简直骇人听闻”(Nuzzo,2014)。


              然而后世的许多统计学家错误的将两个方法进行了混合,衍生出这样的判别标准,即:

用p<α作为判断标准,以决定接受原假设还是备择假设

              如Gibbons(1986,p.367)说:“P值与古典方法(即Neyman-Pearson)的关系是,如果p<=α,我们就要拒绝H0,如果p>α,我们就要接受H0。”


三、悲剧的结论


       梳理完P值和假设检验的历史,你应该知道为什么罗斯福大学的经济学家史蒂芬说,“P值没有起到人们期望的作用,因为它压根就不可能起到这个作用。”了,因为P值从来没有被证明可以用来接受某个假设,即使是拒绝假设,也是基于某个样本得出的结论,当样本变动时,结论很可能也会变动

       P值检验会如此不靠谱?其实,Fisher本人对统计检验的观点更加悲观,他认为,统计学的功能仅仅在于归纳推论(inductive inference),而不是归纳行动(inductive behavior);统计检验应该止于归纳结论,而不涉足于行动判断(Lv,2012)。

       这是一个悲剧的结论,不仅对梦碎的莫德尔老兄,也对所有运用统计学的研究者。


四、 解决之道


面对“P值至上”的种种恶果,统计学家们给出了其他的解决方法,


              Ø  避免使用“显著”或“不显著”来进行判断。如心理学家Cumming建议,研究者应当给出置信区间和power,以让读者明白研究结果的靠谱程度。


              Ø  使用贝叶斯等决策方法。下图是贝叶斯的判断准则,没有P值的参与。

13.jpg


              Ø  对同一个数据使用多种方法进行分析。结果越是不同,就越有可能出现重大的发现。


              数说君曰:P值死了,这是统计学的重生



参考文献

       Fisher, R.A. (1925),Statistical Methods for Research Workers, Edinburgh: Oliver and Boyd.

       (1929), “The StatisticalMethod in Psychical Research,” Proceedings of the Society for Psychical Research,London, 39, 189-192.

       (1935b), “The Logic ofInductive Inference,” Journal of the Royal Statistical Society, 98, 39-54.

       (1935c), “StatisticalTests,” Nature, 136, 474.

       (1945), “The LogicalInversion of the Notion of the Random Variable,” SankhyN, 7, 129-132.

       (1960), “ScientificThought and the Refinement of Human Reasoning,” Journal of the Operations ResearchSociety of Japan, 3, 1-10.

       (1966), The Design ofExperiments (8th ed.), Edinburgh: Oliver and Boyd

       Gibbons,J.D. (1986), “P-Values,” in Encyclopedia of Statistical Sciences, eds. S. Kotzand N.L. Johnson, New York: Wiley, 366–368.

       Neyman, J. (1950), First Course inProbability and Statistics, New York: Holt.

       (1967), “R.A. Fisher (1890–1962), AnAppreciation,” Science, 156, 1456-1460.

       Pearson,E.S. (1928a), “On the Use and Interpretation of Certain Test Criteria forPurposes of Statistical Inference. Part I,” Biometrika, 20A, 175-240.

       (1928b), “On the Use and Interpretation ofCertain Test Criteria for Purposes of Statistical Inference. Part II,”Biometrika, 20A, 263-294.

       (1933), “On the Problem ofthe Most Efficient Tests of Statistical Hypotheses,” Philosophical Transactionsof the Royal Society of London, Ser. A, 231, 289-337.

       Regina Nuzzo,“STATISTICAL ERRORS”, nature

       陈希孺.(2002).数理统计简史. 长沙:湖南教育出版社

       吕小康.(2012).Fisher与Neyman-Pearson的分歧与心理统计中的假设检验争议.心理科学


       (来源:数说工作室)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Statistical statistica HYPOTHESIS statistic pearson 新浪微博 errors nature 工作室 统计学

12.jpg (66.59 KB)

12.jpg

11.jpg (43.46 KB)

11.jpg

9(4).jpg (61.95 KB)

9(4).jpg

9(3).jpg (84.36 KB)

9(3).jpg

9(2).jpg (38.57 KB)

9(2).jpg

9(1).jpg (52.94 KB)

9(1).jpg

回帖推荐

zly16 发表于82楼  查看完整内容

可以在R软件中输入: shapiro.test(1:10) Shapiro-Wilk normality test data: 1:10 W = 0.9702, p-value = 0.8924 发现P值为0.8924,按照P值大于0.05则选择接受原假设的条件,结果应接受1:10服从正态分布,这纯属扯淡嘛
已有 9 人评分经验 学术水平 热心指数 信用等级 收起 理由
oliyiyi + 100 精彩帖子
Mrpenguin + 1 + 1 + 1 观点有启发
Nicolle + 60 + 5 + 5 精彩帖子
fin-qq + 36 + 1 + 1 精彩帖子
狂热的爱好者 + 60 + 1 + 1 + 1 精彩帖子
batwwl + 3 + 3 + 3 精彩帖子
Sunknownay + 2 + 2 + 2 鼓励积极发帖讨论
cba123999 + 5 + 5 + 5 精彩帖子
crystal8832 + 50 + 1 + 1 + 1 精彩帖子

总评分: 经验 + 306  学术水平 + 19  热心指数 + 19  信用等级 + 13   查看全部评分

本帖被以下文库推荐

沙发
13Iam13 发表于 2014-7-4 16:10:05 |只看作者 |坛友微信交流群
有意思的写法,仔细研读一下

使用道具

藤椅
daazx 在职认证  发表于 2014-7-5 00:36:21 |只看作者 |坛友微信交流群

使用道具

板凳
马比明 在职认证  发表于 2014-7-5 05:00:02 |只看作者 |坛友微信交流群
确实挺有意思,但是个人感觉平时用p值还是比较方便和准确的,不需要理解原理直接得出检验结果

使用道具

报纸
annozk 发表于 2014-7-5 06:00:55 |只看作者 |坛友微信交流群
that  looks cool though i don't understand what you are saying.

使用道具

地板
lawrence1992 学生认证  发表于 2014-7-5 07:59:50 |只看作者 |坛友微信交流群
謝謝分享!

使用道具

7
lyqzxy 发表于 2014-7-5 08:11:34 |只看作者 |坛友微信交流群
确实不错!

使用道具

8
ACMICPC 发表于 2014-7-5 08:34:37 |只看作者 |坛友微信交流群
一直在用P值,而且最近的paper也都是关于P值得实际应用,这篇文章很好,很强大

使用道具

9
zly05 发表于 2014-7-5 08:55:28 |只看作者 |坛友微信交流群
hen很专业,谢谢分享

使用道具

10
jingjigdp 发表于 2014-7-5 08:56:03 |只看作者 |坛友微信交流群
好文章!!!

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-27 02:17