楼主: 东方祥
7482 2

[基础理论] 【统计学的一个误区】不得不提的P值 [推广有奖]

学科带头人

56%

还不是VIP/贵宾

-

威望
2
论坛币
653784 个
通用积分
46542.3897
学术水平
203 点
热心指数
253 点
信用等级
195 点
经验
53956 点
帖子
520
精华
6
在线时间
2290 小时
注册时间
2015-3-25
最后登录
2024-4-25

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
                                                P值是最常用的一个统计学指标,几乎统计软件输出结果都有P值。了解p值的由来、计算和意义很有必要。

一、P值的由来R·A·Fisher(1890-1962)作为一代假设检验理论的创立者,在假设检验中首先提出P值的概念。他认为假设检验是一种程序,研究人员依照这一程序可以对某一总体参数形成一种判断。也就是说,他认为假设检验是数据分析的一种形式,是人们在研究中加入的主观信息。(当时这一观点遭到了Neyman-Pearson的反对,他们认为假设检验是一种方法,决策者在不确定的条件下进行运作,利用这一方法可以在两种可能中作出明确的选择,而同时又要控制错误发生的概率。这两种方法进行长期且痛苦的论战。虽然Fisher的这一观点同样也遭到了现代统计学家的反对,但是他对现代假设检验的发展作出了巨大的贡献。)Fisher的具体做法是:
  • 假定某一参数的取值。
  • 选择一个检验统计量(例如z 统计量或Z 统计量) ,该统计量的分布在假定的参数取值为真时应该是完全已知的。
  • 从研究总体中抽取一个随机样本4计算检验统计量的值5计算概率P值或者说观测的显著水平,即在假设为真时的前提下,检验统计量大于或等于实际观测值的概率。

  • 如果P<0.01,说明是较强的判定结果,拒绝假定的参数取值。
  • 如果0.01<P值<0.05,说明较弱的判定结果,拒接假定的参数取值。
  • 如果P值>0.05,说明结果更倾向于接受假定的参数取值。

可是,那个年代,由于硬件的问题,计算P值并非易事,人们就采用了统计量检验方法,也就是我们最初学的t值和t临界值比较的方法。统计检验法是在检验之前确定显著性水平α
,也就是说事先确定了拒绝域。但是,如果选中相同的α
,所有检验结论的可靠性都一样,无法给出观测数据与原假设之间之间不一致程度的精确度量。只要统计量落在拒绝域,假设的结果都是一样,即结果显著。但实际上,统计量落在拒绝域不同的地方,实际上的显著性有较大的差异。
因此,随着计算机的发展,P值的计算不再是个难题,使得P值变成最常用的统计指标之一。
二、P值的计算为理解P值的计算过程,用Z
表示检验的统计量,ZC
表示根据样本数据计算得到的检验统计量值。
左侧检验 H0:μ≥μ0
vs H1:μ<μ0

P值是当μ=μ0
时,检验统计量小于或等于根据实际观测样本数据计算得到的检验统计量值的概率,即p值 = P(ZC≤Z|μ=μ0)
右侧检验 H0:μ≤μ0
vs H1:μ>μ0

P值是当μ=μ0
时,检验统计量大于或等于根据实际观测样本数据计算得到的检验统计量值的概率,即p值 = P(ZC≥Z|μ=μ0)
双侧检验 H0:μ=μ0
vs H1:μ≠μ0

P值是当μ=μ0
时,检验统计量大于或等于根据实际观测样本数据计算得到的检验统计量值的概率,即p值 = 2P(ZC≥|Z||μ=μ0)
三、P值的意义P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明这种情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。
总之,P值越小,表明结果越显著。但是检验的结果究竟是“显著的”、“中度显著的”还是“高度显著的”需要我们自己根据P值的大小和实际问题来解决。
扫码添加公众号获得与CDA数据分析培训相关信息

还在公众号后台回复“R语言” 获取本次2016第九届R语言会议手册。
                    

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:统计学 pearson Fisher 现代统计学 假设检验 统计学 统计 工具

沙发
是我的海 发表于 2016-6-7 15:33:45 |只看作者 |坛友微信交流群
P值检验就是:小概率事件发生了,需要引起注意了。

使用道具

藤椅
qwe123edc 发表于 2016-6-7 20:36:42 |只看作者 |坛友微信交流群
结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。专业上,p值为结果可信程度的一个递减指标,p值越大,我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标。p值是将观察结果认为有效即具有总体代表性的犯错概率。如p=0.05提示样本中变量关联有5%的可能是由于偶然性造成的。即假设总体中任意变量间均无关联,我们重复类似实验,会发现约20个实验中有一个实验,我们所研究的变量关联将等于或强于我们的实验结果。(这并不是说如果变量间存在关联,我们可得到5%或95%次数的相同结果,当总体中的变量存在关联,重复研究和发现关联的可能性与设计的统计学效力有关。)在许多研究领域,0.05的p值通常被认为是可接受错误的边界水平。


使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-27 17:54