人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › 数据分析与数据挖掘 › 【求助】检验两总体比例分布是否有差异的方法

发帖

楼主: huang010302

6372 4

[问题] 【求助】检验两总体比例分布是否有差异的方法 [推广有奖]

0关注
0粉丝

小学生

85%

还不是VIP/贵宾

威望: 0 级
论坛币: 37 个
通用积分: 0.5592
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 301 点
帖子: 8
精华: 0
在线时间: 11 小时
注册时间: 2010-4-17
最后登录: 2020-7-3

楼主

huang010302 发表于 2017-6-5 16:45:36 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

如题，已知两总体的比例分布，如何判断这两个比例分布是否有差异。

具体内容如下：
已知总体A（总容量为47000）中各项比例为 31.1%和68.9%，总体B（总容量为215000）中各项比例为30.4%和69.6%；
通过什么方法来判断这两个比例分布是否有差异。

之前通过统计学的两总体比例之差检验出AB的比例有显著差异（0.05置信区间），2*2的独立性检验也检验出比例有显著差异；
但是31.1%和30.4%看数字应该没有什么差异；

是不是确定的总体比例（不是通过样本比例推断）不能够使用统计学检验方法？如果可以应该如何解释这个显著差异结果？如果不可以还有哪些方法可以检验？

跪求！！！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：独立性检验置信区间什么方法检验方法统计学统计学独立性检验总体比例

相关帖子

沙发

lauchery 发表于 2017-6-6 03:24:12

可以使用Fisher's exact test。因题意使用the analysis of contingency tables。
H0： A B 相同。

            列 1                   列 2                         总
行A       C=47000*0.311       E=47000*0.689       47000
行B       D=215000*0.304    F=215000*0.696       215000
总          C+D                      E+F                   N=C+D+E+F
由于检测AB是否相同，故
p= （C+D）!(C+E)!(D+E)!(E+F)!/C!D!E!F!N!
如果小于0.05， H0错误，有差别。

或者使用Chi Square test

            列 1                   列 2                         总
行A       C=47000*0.311       E=47000*0.689       47000
行B       D=215000*0.304    F=215000*0.696       215000
总          C+D                      E+F                   N=C+D+E+F
H=（C+D）*（C+E）/N          I=（E+F）*（C+E）/N
J=（C+D）*（D+F）/N          K=（D+F）（E+F）/N
Chi-Square = （H-C）^2/H + （I-E）^2/I + (J-D)^2/J + (K-F)^2/K
自由度df= （2-1）*（2-1）=1
查chi-square 表

已有 1 人评分	论坛币	学术水平	热心指数	收起理由
admin_kefu	+ 20	+ 1	+ 1	热心帮助其他会员

总评分: 论坛币 + 20 学术水平 + 1 热心指数 + 1 查看全部评分

藤椅

huang010302 发表于 2017-6-6 10:19:41

lauchery 发表于 2017-6-6 03:24
可以使用Fisher's exact test。因题意使用the analysis of contingency tables。
H0： A B 相同。

这么大的样本量感觉不管是什么检验都会放大差异，有什么消除样本容量引起的偏差的方法吗？

板凳

可乐小白 发表于 2017-6-8 22:31:02

如果已经是总体，直接计算比例。
如果是抽样样本，考虑一个抽取两类样本过程可以用二项分布描述，二项分布极限分布为正态分布，因此使用t检验的方法是合理的。
抽样样本越多，按大数定律来讲样本均值就越接近总体均值，反而样本容量小的情况下假设检验会容易犯第二类错误。
你面对的问题是设计实验的精度较低，因此两个总体天生就会存在一定差异

已有 1 人评分	论坛币	收起理由
admin_kefu	+ 20	热心帮助其他会员

总评分: 论坛币 + 20 查看全部评分

报纸

lauchery 发表于 2017-6-14 05:00:51

huang010302 发表于 2017-6-6 10:19
这么大的样本量感觉不管是什么检验都会放大差异，有什么消除样本容量引起的偏差的方法吗？

I cannot type Chinese using this computer.
Well, the larger the sample were, the more accurate result would be, based on the same method we yielded.
Whatever method we chose, however large the sample is, we should not reach the precise value. Statistician deals with uncertainty, now and in future.