楼主: 胖胖小龟宝
17363 54

[学科前沿] 【从零开始学统计】5.假设检验那些事 [推广有奖]

大师

21%

还不是VIP/贵宾

-

TA的文库  其他...

龟宝的档案室

威望
3
论坛币
793110 个
通用积分
21961.2355
学术水平
2211 点
热心指数
2133 点
信用等级
1424 点
经验
978920 点
帖子
10001
精华
25
在线时间
4757 小时
注册时间
2012-7-27
最后登录
2020-12-21

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
1、什么是假设检验?
       个人理解,假设检验就是利用反证法和小概率事件对原假设(Null Hypothesis)和备选假设(Alternative Hypothesis)进行选择。首先,假设原假设成立,那么就可以利用原假设的一些条件,如统计量的概率分布。然后,选定显著性水平α和对应的拒绝域(一个区间),一般选择α= 5%或α= 1%。接下来,根据样本和假设的统计量,计算P值(P Value)。如果P值对应的统计量在显著性水平以内,那么就拒原假设。直观的理解,因为α比较小,属于小概率事件,一般不可能发生,但是现在却发生了,那么原假设有问题,所以拒绝原假设,接受备选假设。


2、为什么要做假设检验
       假设检验是统计中常用的手段,大家比较熟悉的t检验、方差分析、卡方检验等都是假设检验的范畴。为什么要做假设检验呢?实际上原因就在于抽样的问题。如果我们不抽样,直接比较总体,那就无需做假设检验。假设检验都是对样本做的,目的是通过样本推理总体。
       例如,想比较两个班的学生身高是否有差异,有两个方法:一是把两个班级的学生都测量身高,然后比较两个班的均数。二是从每个班抽样一部分学生测量身高,然后比较抽样的两个样本均数,推理是否两个班的身高不同。
       第一种方法当然最理想,直接就知道是不是有差异,但是也有一个问题,如果不是比较2个班,而是两个省,那测量起来就有点麻烦。所以在很多情况下第一种方法难以实施。
       第二种方法实际上就是假设检验的思想,通过样本推理总体。比如,两个班均100人,从每个班各抽样30人测量身高,然后比较他们的身高是否有差异。
       但是,这也有个问题,那就是,我每个班选择的30人是否代表了这个班的身高(也正是前面所说抽样误差的问题)。
       如果最终比较这两个班的60人,发现身高不同,我是否可以通过这60人的结果来说这2个班的身高就不同呢?这就需要一个概率的问题,也就是我根据现有的数据(也就是这60人)作出的推断有多大的可信程度?如果有95%以上的把握认为我的结果是可靠的,那我就可以比较放心地说,这两个班级的学生身高就是不同。如果我的把握度没有这么高,我是否能说的理直气壮呢?到底多高才算高呢?所以就需要一个标准,目前国际上公认的标准就是95%。95%只是一个标准,并不是说我非要P<0.05才算结果理想,P<0.05表示我的把握度大于95%,但是如果P=0.06,那我的把握度=94%难道就不行吗?所以现在的文章要求列出确切的P值,结论是不是可靠,审稿人看看P值到底有多大,心里自然有数。如果单纯写个P>0.05,那P=0.06也是大于0.05,P=0.96也是大于0.05,但是之间的差距那是一目了然。所以,建议还是写上具体的P值是最好。


需要指出的是,无论是否拒绝原假设,都不能保证100%正确,只能在一定程度上估计这件事情可能性。而且检验结果很大程度上取决于样本,所以一旦样本出现偏倚(Biased),会直接影响检验结果。


3、假设检验,形式化的可以总结为以下6步:
  • 确定原假设H0和备选假设H1
  • 根据H0,确定统计量的概率分布和相关参数
  • 确定显著性水平α和拒绝域
  • 根据步骤2的参数,求出P值
  • 查看P值是否位于拒绝域以内
  • 做出判断,如果P值在拒绝域以内,那么拒绝H0接受H1。否则接受H0拒绝H1。

下面的图是双侧和单侧检验的拒绝域:

1.gif

上面提到,假设检验不会100%确保检验结果正确,会出现上面的两类错误:
第一类错误:错误的拒绝原假设。原假设正确,但是却错误的拒绝了,发生此事件的概率为α,也就是显著性水平。所以显著性水平越高,越容易发生。
第二类错误:错误的接受原假设。原假设错误,但是却接受了原假设。发生此事件的概率需要根据统计量的分布,和被选项假设具有具体值来确定,这里先略过(《Head First Statistics》假设检验这一章中举了一个例子描述如何求解其概率)。


  • 同时引申出一个问题如何选择显著性水平α:
       显著性水平α一般为0.05,但是根据需要可以设为0.1或者0.01。当α较大时,第一类错误的概率增大,第二类错误的概率减少;α较小时,则相反。下面举几个例子:
       例1 一个汽车制造商正在考核新零件,该零件对车辆安全至关重要。目前正在抽样检测,你觉得α应该如何指定。
解答H0:新配件与原始配件的安全性能相同。H1:新配件比原始配件更安全。由于此配件关系用户声明安全,所以需要尽量使用较安全的配件,拒绝假设H0,那么可以设将α设置高一点,比如 0.1。
       例2 一个机器中,有一个配件,替换成本十分高,但是如果该配件损坏了,对机器影响不大,请问显著性水平应该如何选取。
解答 H0:配件正常工作。H1:配件损坏。由于替换成本较高,所以需要确保零配件的确损坏才能替换,可以将α设置较小,比如0.01。


再往外说点,来说说区间估计与假设检验的关系(前面不是刚弄过置信度和最小二乘估计么,略微结合一下)
主要区别:
区间估计通常求得的是一样本估计值为中心的双侧置信区间,而假设检验以假设总体参数值为基准,不仅有双侧检验也有单侧检验
区间估计立足于大概率,通常以较大的置信水平(1-α)去保证总体参数的置信区间。而假设检验立足于小概率,通常是给定很小的显著性水平(α)去检验对总体参数的先验假设是否成立。
那些剪不断的联系:
两者的推断结果都有一定的可信程度也有相应的风险;
对同一问题的参数进行推断,使用同一种样本,同一统计量和分布,所以两者可以互相转换。也就是说区间估计问题可以转换成假设问题,区间估计中的置信区间对应假设检验中的接受域,置信区间以外的就是其拒绝域。
































二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:假设检验 从零开始 那些事 Alternative HYPOTHESIS 统计学 假设检验 双侧检验 单侧检验 区间估计

已有 2 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
lzsxy2009 + 5 精彩帖子
日新少年 + 1 + 1 + 1 精彩帖子

总评分: 论坛币 + 5  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

本帖被以下文库推荐

沙发
pcjoshua 在职认证  发表于 2014-5-13 09:37:26 |只看作者 |坛友微信交流群
谢谢楼主,学习许多,我也发表些意见!


我认为置信区间是利用样本的统计量对总体参数的区间估计
也就是说有多大的把握(95%)说这个样本所代表的总体参数会落在这个区间内。
然而假设检验所要做的是利用样本的统计量与某些值进行对比,或者是两样本之间进行对比,对所做出的假设进行验证。

所以这两者的区别:我认为置信区间是不需要一个对比参照的数值或样本的,然而假设检验需要有。


正如楼主所说
另外,a概率是发生在拒绝原假设的情况,然而b(第二类错误)是发生在不拒绝的情况下
a所代表的意义是:当原假设实际上是正确的,然而我们却拒绝了原假设的概率
b所代表的含义:当原假设实际上是错误的,而我们却没有拒绝原假设
b值是比较难以计算出来的,因为错误的类型太多了,我们不知道这些错误发生的概率,所以在抽样分布假定时,需要我们做出有意义的原假设,这样的原假设能够有抽样分布(楼主所说的统计量的概率分布)。
已有 1 人评分论坛币 学术水平 热心指数 收起 理由
胖胖小龟宝 + 10 + 1 + 1 鼓励积极发帖讨论

总评分: 论坛币 + 10  学术水平 + 1  热心指数 + 1   查看全部评分

使用道具

藤椅
cacavy 发表于 2014-5-13 09:37:33 |只看作者 |坛友微信交流群
这个系列挺好的,刚好近期要做建模,复习好工具。感谢~~~

使用道具

板凳
chengyuchenwen 发表于 2014-5-13 10:17:56 来自手机 |只看作者 |坛友微信交流群
胖胖小龟宝 发表于 2014-5-13 09:18
1、什么是假设检验?
       个人理解,假设检验就是利用反证法和小概率事件对原假设(Null Hypothesis)和 ...
学习一下,通俗易懂~

使用道具

报纸
whiteice 发表于 2014-5-13 12:37:17 |只看作者 |坛友微信交流群
看了几期后发现,作者对统计的了解还是限于书本。当做读书笔记看,确实是很好的材料
已有 1 人评分热心指数 收起 理由
胖胖小龟宝 + 1 好的意见建议

总评分: 热心指数 + 1   查看全部评分

人在尘世间,心在三界外;若无纷繁事,何羡天上仙。

使用道具

地板
胖胖小龟宝 发表于 2014-5-13 13:47:33 |只看作者 |坛友微信交流群
pcjoshua 发表于 2014-5-13 09:37
谢谢楼主,学习许多,我也发表些意见!
谢谢支持,你说的很好!

使用道具

7
胖胖小龟宝 发表于 2014-5-13 13:47:36 |只看作者 |坛友微信交流群
pcjoshua 发表于 2014-5-13 09:37
谢谢楼主,学习许多,我也发表些意见!
谢谢支持,你说的很好!

使用道具

8
胖胖小龟宝 发表于 2014-5-13 13:49:54 |只看作者 |坛友微信交流群
whiteice 发表于 2014-5-13 12:37
看了几期后发现,作者对统计的了解还是限于书本。当做读书笔记看,确实是很好的材料
谢谢你的关注,你说的很对,其实我的很多内容是来自书本的,所以希望通过这个方式能够让大家一起参与进来。最好能够分享一些实际应用中的感悟和体会,因为这也是我缺乏的。理论在怎样都是死的,运用到实际中才能活。

使用道具

9
雪痕无垠 发表于 2014-5-13 15:37:51 |只看作者 |坛友微信交流群
我是新手,非常喜欢这个专题,希望楼主一直继续下去,最好能结合例子来讲解
人生若只如初见

使用道具

10
海的小岛 发表于 2014-5-14 14:31:25 |只看作者 |坛友微信交流群
谢谢 分享

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-25 23:23