楼主: zhaoxing731
5214 24

[学科前沿] 得到了总体还能做假设检验? [推广有奖]

  • 0关注
  • 0粉丝

博士生

88%

还不是VIP/贵宾

-

威望
0
论坛币
1441 个
通用积分
4.2000
学术水平
1 点
热心指数
0 点
信用等级
0 点
经验
2253 点
帖子
90
精华
0
在线时间
666 小时
注册时间
2009-5-1
最后登录
2024-9-23

楼主
zhaoxing731 发表于 2011-4-30 09:38:36 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
看了一个非常好的bootstrap和permutation test的入门读物,是大牛写的,http://bcs.whfreeman.com/ips5e/content/cat_080/pdf/moore14.pdf。非常受启发,但其中有个问题困扰了我。

这个材料介绍permutation test特点时,谈到confidence intervals和significance tests有一个微妙的不同就是针对总体也可以做假设检验。这个让人有些不好理解,因为既然你知道了总体,参数也就是知道了,怎么还需要假设检验去下结论呢?比如材料中举的例子,要比较一个公司男员工和女员工的平均收入的差异,直接把全体公司的男女员工都调查完了,这个时候直接用总体的参数去比较就行了,就不会犯传统假设检验的一类错误或二类错误了

请问大家对此有什么理解?或者reference参考,麻烦告知
谢谢


谢谢大家对此的热情讨论,把我这几天的思考也呈现给大家

其实假设检验是神马,概率计算和点估计才是王道

统计学包含统计描述和统计推断,统计推断又包含估计和假设检验。回想经典的假设检验过程:
准备过程:对感兴趣的总体参数选择一个统计量→推导出此统计量的抽样分布
操作过程:对感兴趣的参数设定一个值→计算该参数下统计量的抽样分布→将观察到的统计量放入统计量的抽样分布,求P值

再仔细想,其实这个过程就是概率计算和点估计的衍生过程。
为了逻辑解释的方便,我们以t检验来举例,并预先定义几个符号:mu1(总体均数值,描述所有对象集中程度),mu2(对应的抽样分布参数值,我们抽样分布集中程度),
我们是设定的mu2,有了mu2,我们就可以计算观察到的T值是不是小概率事件,如果是,则mu2这个假设不成立,并且mu2又是我们对mu1唯一能获得的点估计值,所以我们因此来推断mu1

所以总体和样本都可以做假设一个参数再去做他的概率计算,只不过前者的参数是总体参数,后者参数是抽样分布的参数。(因为这两个分布有对应关系,并且我们一般情况两个参数都是相等的,所以我们我们就没有强调这两个的区分??)概率算出来了,再看发生的事件是不是小概率事件

请大家批评指正
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:假设检验 significance Permutation confidence Bootstrap 男女

回帖推荐

sungmoo 发表于4楼  查看完整内容

个人理解,这里先要讨论的是,在了解了这两个总体(该公司各男员工的工资及各女员工的工资)以后,若他们的平均工资确有差异(无论绝对值有多大或有多小),我们有无必要讨论这种差异是“显著的”。
已有 1 人评分学术水平 收起 理由
耕耘使者 + 1 鼓励积极发帖讨论

总评分: 学术水平 + 1   查看全部评分

本帖被以下文库推荐

沙发
耕耘使者 发表于 2011-4-30 10:53:04
楼主有理,有了总体,就没有必要做假设检验了。

藤椅
sungmoo 发表于 2011-4-30 11:26:40
耕耘使者 发表于 2011-4-30 10:53 楼主有理,有了总体,就没有必要做假设检验了。
比较两个总体的分布是否“有显著差异”,假设检验是否有意义?

(当然,了解了两个总体以后,只要两者有稍许差异,我们就可以说它们“不服从相同的分布”。但我们有无必要讨论两者的差异足够“显著”?)
已有 1 人评分学术水平 收起 理由
耕耘使者 + 1 观点有启发

总评分: 学术水平 + 1   查看全部评分

板凳
sungmoo 发表于 2011-4-30 11:30:59
zhaoxing731 发表于 2011-4-30 09:38 这个材料介绍permutation test特点时,谈到confidence intervals和significance tests有一个微妙的不同就是针对总体也可以做假设检验。这个让人有些不好理解,因为既然你知道了总体,参数也就是知道了,怎么还需要假设检验去下结论呢?比如材料中举的例子,要比较一个公司男员工和女员工的平均收入的差异,直接把全体公司的男女员工都调查完了,这个时候直接用总体的参数去比较就行了,就不会犯传统假设检验的一类错误或二类错误了
请问大家对此有什么理解?
个人理解,这里先要讨论的是,在了解了这两个总体(该公司各男员工的工资及各女员工的工资)以后,若他们的平均工资确有差异(无论绝对值有多大或有多小),我们有无必要讨论这种差异是“显著的”。
已有 1 人评分经验 论坛币 收起 理由
胖胖小龟宝 + 10 + 10 热心帮助其他会员

总评分: 经验 + 10  论坛币 + 10   查看全部评分

报纸
耕耘使者 发表于 2011-4-30 19:58:15
sungmoo 发表于 2011-4-30 11:26
耕耘使者 发表于 2011-4-30 10:53 楼主有理,有了总体,就没有必要做假设检验了。
比较两个总体的分布是否“有显著差异”,假设检验是否有意义?

(当然,了解了两个总体以后,只要两者有稍许差异,我们就可以说它们“不服从相同的分布”。但我们有无必要讨论两者的差异足够“显著”?)
     统计包括统计描述和统计推断,而假设检验隶属于后者。
    什么是统计推断?由样本信息推断总体信息。显然,基本的统计学逻辑是,既然知道了总体参数,那么还推断什么?我又专门查阅了有关书籍,如卢淑华的【社会统计学】250页提到:
    “在统计推论中,我们研究通过样本对总体进行参数估计或假设检验。”
    可见,我们探讨问题的共同背景或者说平台,是在“统计学”这个平台上的,所说的“显著”性检验,是指统计学意义上的假设检验。至于您提到的“我们有无必要讨论两者的差异足够“显著””,由于不是由样本推断总体,而取决于研究者主观判断,故已经不是统计学意义上的显著性检验。

地板
耕耘使者 发表于 2011-4-30 20:14:56
sungmoo 发表于 2011-4-30 11:30

个人理解,这里先要讨论的是,在了解了这两个总体(该公司各男员工的工资及各女员工的工资)以后,若他们的平均工资确有差异(无论绝对值有多大或有多小),我们有无必要讨论这种差异是“显著的”。
      如果有必要讨论这种差异是否“显著”时,这也不是统计学意义上显著,否则,就必须知道二者之差的分布,如果总体确定,两个参数(即平均工资)是确定的常数,二者差亦是一个常数,那又如何得来这个差的分布?分布只是适用于随机变量,而不适用于常数。
      如果要进行显著性检验,必须推翻楼主的一个陈述,就是“已经知道了总体”。我认为确实楼主的这个提法不妥,仅仅知道了两个公司某一年的男女员工平均工资,从时间序列角度看,这只是一个样本观测值而已,因为平均工资是变动的,从动态上看,是一个随机变量。因此,我们得到的仍然可以看作是样本值。
    所以,关键点是我们研究的意图。是只看某一年男女员工平均工资的差异,还是想通过这个样本,了解总体上的性别差异。如果是前者,无需假设检验。而后者,必须假设检验。而从常识看,没有理由认为研究只是想了解某一年信息,一切研究都是为了获得总体上规律性的信息,因此,我赞同sungmoo版主的看法,必须进行显著性检验。
    楼主则误解了“总体”的含义。总体不仅仅是指静态意义上的空间含义,更包括动态上的时间含义,而后者更为关键

7
sungmoo 发表于 2011-4-30 20:29:23
耕耘使者 发表于 2011-4-30 19:58 统计包括统计描述和统计推断,而假设检验隶属于后者。什么是统计推断?由样本信息推断总体信息。显然,基本的统计学逻辑是,既然知道了总体参数,那么还推断什么?
这里还涉及一个问题:统计推断不光涉及参数估计。

8
sungmoo 发表于 2011-4-30 20:32:17
耕耘使者 发表于 2011-4-30 19:58 统计包括统计描述和统计推断,而假设检验隶属于后者。
什么是统计推断?由样本信息推断总体信息。显然,基本的统计学逻辑是,既然知道了总体参数,那么还推断什么?我又专门查阅了有关书籍,如卢淑华的【社会统计学】250页提到:
“在统计推论中,我们研究通过样本对总体进行参数估计或假设检验。”
可见,我们探讨问题的共同背景或者说平台,是在“统计学”这个平台上的,所说的“显著”性检验,是指统计学意义上的假设检验。至于您提到的“我们有无必要讨论两者的差异足够“显著””,由于不是由样本推断总体,而取决于研究者主观判断,故已经不是统计学意义上的显著性检验。
这种“主观判断”也许也可以对应一些规则(这些规则又对应了特定的操作),而“关于总体的(某些性质的)显著性检验”,也许就是在这种规则意义上的。

9
sungmoo 发表于 2011-4-30 20:39:57
耕耘使者 发表于 2011-4-30 20:14
如果有必要讨论这种差异是否“显著”时,这也不是统计学意义上显著,否则,就必须知道二者之差的分布,如果总体确定,两个参数(即平均工资)是确定的常数,二者差亦是一个常数,那又如何得来这个差的分布?分布只是适用于随机变量,而不适用于常数。
如果要进行显著性检验,必须推翻楼主的一个陈述,就是“已经知道了总体”。我认为确实楼主的这个提法不妥,仅仅知道了两个公司某一年的男女员工平均工资,从时间序列角度看,这只是一个样本观测值而已,因为平均工资是变动的,从动态上看,是一个随机变量。因此,我们得到的仍然可以看作是样本值。
所以,关键点是我们研究的意图。是只看某一年男女员工平均工资的差异,还是想通过这个样本,了解总体上的性别差异。如果是前者,无需假设检验。而后者,必须假设检验。而从常识看,没有理由认为研究只是想了解某一年信息,一切研究都是为了获得总体上规律性的信息,因此,我赞同sungmoo版主的看法,必须进行显著性检验。
楼主则误解了“总体”的含义。总体不仅仅是指静态意义上的空间含义,更包括动态上的时间含义,而后者更为关键


我前面的想法是,如果谈“已知总体时关于总体的(某些性质)的显著性检验”,必须首先讨论并明确其意义是什么(比如,它对应了怎样的规则与操作),即我们须了解这是哪种意义上的检验。而由此自然引出更先导的问题:引入这种意义或操作的目的是什么(必要性讨论)。

如果将“总体”作上述理解(“动态上的时间含义”),在某一时点所获得的某公司所有男女员工的(某特定时段的)工资的数据,其实只是一组样本观测值。这也就回到普通意义上的检验了。

由此,如果认为“总体”的意义总是相对的,就某一具体的“总体”而言,若“进一步”只把它理解成某一“更基础”总体的样本观测值,也就可以进行普通意义的统计操作了。

综上,对于楼主的问题,也许涉及三条路径:一条是调整“总体”的意义(总体总是相对的),从而相关检验仍是原有意义上的;一条是调整“检验”的意义,从而保持总体的原有意义;一条是“总体”与“检验”的意义都不调整,从而认为“已知总体时关于总体的检验”是无意义的。

对于第一条路径,我们必须时刻小心“总体”的意义具体是什么;对于第二条路径,我们也许可以设计“已知总体情况下抽样”的操作方案,利用抽样的信息定义并进行“已知总体时的显著性检验”。

以上只是一些杂想。
已有 1 人评分学术水平 热心指数 收起 理由
耕耘使者 + 2 + 2 分析的有道理

总评分: 学术水平 + 2  热心指数 + 2   查看全部评分

10
耕耘使者 发表于 2011-4-30 23:29:52
sungmoo 发表于 2011-4-30 20:39

综上,对于楼主的问题,也许涉及三条路径:一条是调整“总体”的意义(总体总是相对的),从而相关检验仍是原有意义上的;一条是调整“检验”的意义,从而保持总体的原有意义;一条是“总体”与“检验”的意义都不调整,从而认为“已知总体时关于总体的检验”是无意义的。

对于第一条路径,我们必须时刻小心“总体”的意义具体是什么;对于第二条路径,我们也许可以设计“已知总体情况下抽样”的操作方案,利用抽样的信息定义并进行“已知总体时的显著性检验”。

以上只是一些杂想。
第二条路径似乎有问题,好像自相矛盾,既然“总体已知”,还何须再靠“抽样”去推断?抽样仅适用于总体未知的情形。
第一条路径和第三条路径,我完全赞同。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-1-8 19:14