请选择 进入手机版 | 继续访问电脑版
楼主: xiangt516
8197 23

[学术治理与讨论] 中国家庭金融调查的抽样问题 [推广有奖]

  • 0关注
  • 3粉丝

教师

博士生

47%

还不是VIP/贵宾

-

威望
0
论坛币
669 个
通用积分
0
学术水平
33 点
热心指数
34 点
信用等级
25 点
经验
248 点
帖子
219
精华
0
在线时间
325 小时
注册时间
2011-3-29
最后登录
2021-12-1

xiangt516 发表于 2012-12-13 13:47:13 |显示全部楼层

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
如下的第二阶段抽样是有问题的:
“第一,按照各市县的非农人口比例的分位数,将各市县分成5个组。分组的依据是各市县非农人口比重20%、40%、60%和80%的分位数。
第二,在非农人口比例最大的市县组中,居委会和村委会分配的样本比例是4:0。
第三,在非农人口比例次大的市县组中,居委会和村委会分配的样本比例是3:1。
第四,以此类推,在非农人口比例最低的市县组中,居委会和村委会分配的样本比例是0:4”
抽样比例和收入水平(在这里以非农人口比例代表)正相关,那么必然收入水平两端的抽样比例过大。即,在富有的地方抽取富有的,在贫穷的地方抽取贫穷的。
所以,这个调查出来的基尼系数如此高,就不足为奇了。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:中国家庭金融调查 中国家庭金融 家庭金融 中国家庭 非农人口 中国家庭 居委会 最大的 样本

已有 2 人评分学术水平 热心指数 信用等级 收起 理由
静水深流 + 1 + 1 + 1 精彩帖子
denver + 5 + 5 + 5 观点有启发

总评分: 学术水平 + 6  热心指数 + 6  信用等级 + 6   查看全部评分

本帖被以下文库推荐

stata SPSS
ciang 发表于 2012-12-13 13:57:56 |显示全部楼层
这个论断需要的前提太多了,你需要把他们一个个理出来。
1,各市县非农人口的比例是怎样分布的?前20%和后20%分别是多少?
2,村委会和居委会的城乡定义是怎样分布的?
如果按照居委会样本:村委会样本=0:4的比例来抽样时,抽出来的城乡人口比例刚好和后20%市县的城乡人口比例相等,这个抽样就是没问题的。
已有 2 人评分学术水平 热心指数 信用等级 收起 理由
静水深流 + 1 + 1 观点有启发
denver + 5 + 5 + 5 观点有启发

总评分: 学术水平 + 6  热心指数 + 6  信用等级 + 5   查看全部评分

使用道具

xiangt516 发表于 2012-12-13 14:02:19 |显示全部楼层
我的推断是这样的:
非农人口比例大一般意味着比较富裕,在这些富裕的县抽城市家庭,意味着在富裕群体中抽富裕部分,而不是平均的在富裕群体中抽样。这部分的富裕程度被过度代表了。
同样的在非农人口比例小的县,贫穷程度被过度代表了。
综合起来,收入分布的两个极被过度代表了,那么基尼系数肯定更大了。
不知道,我说明白没?

使用道具

xiangt516 发表于 2012-12-13 14:08:04 |显示全部楼层
一个简单的例子,比如两个县,每个县有1个居委会和1个村委会。非农人口比例大的县则抽取居委会,非农人口比例小的县则抽取村委会。
一般来说,非农人口比例大的县更富有,而居委会一般比村委会富有。
那么,上述抽样就是将富有群体中的富人抽出,将贫穷群体中的穷人抽出,必然使得收入分配更不平均了。

使用道具

ciang 发表于 2012-12-13 14:16:21 |显示全部楼层
xiangt516 发表于 2012-12-13 14:08
一个简单的例子,比如两个县,每个县有1个居委会和1个村委会。非农人口比例大的县则抽取居委会,非农人口比 ...
你这个例子和他的抽样在假设和方法上都不同。
首先,非农比例大的市县,居委会也会更多。
其次,他不是让居委会和村委会的个数比例恒定,而是让从居委会抽取的人数和村委会抽取的人数的比例恒定。
所以,不搞清楚我第一个帖子提出的两个问题,是没办法做判断的。

使用道具

xiangt516 发表于 2012-12-13 14:29:40 |显示全部楼层
ciang 发表于 2012-12-13 14:16
你这个例子和他的抽样在假设和方法上都不同。
首先,非农比例大的市县,居委会也会更多。
其次,他不是 ...
我也不知道是你不清楚,还是我不清楚。
“按照各市县的非农人口比例的分位数,将各市县分成5个组。”这意味着将所有由第一阶段抽出的县市按照非农人口比例分组,非农人口比例大的一组,非农人口比例小的一组。例如,非农人口占80%的为1组,非农人口占20%的1组。
村委会和居委会一般就是按照城乡分开吧,而且我们似乎也可以假定,平均上说,居委会的收入高于村委会。
那么,在非农人口比例大的县多抽居委会,则必然意味着在富裕的县多抽富裕的人。这就是我说的过度代表问题。
我这里的逻辑应该是没错误的吧。这也和他们得出来的基尼系数过高的事实相一致。

使用道具

ciang 发表于 2012-12-13 14:37:28 |显示全部楼层
xiangt516 发表于 2012-12-13 14:29
我也不知道是你不清楚,还是我不清楚。
“按照各市县的非农人口比例的分位数,将各市县分成5个组。”这意 ...
你这里搞错了很多点。
第一,不是非农人口80%是一组,而是是非农人口在80%分位数的为一组,这一组的非农人口可能是90%也可能只有60%,不把3000多个县市区的非农人口分布搞清楚,这个问题你是不知道的。
第二,村委会和居委会并不一定是区分了城乡,这点你可以从(http://www.stats.gov.cn/tjbz/cxfldm/2010/index.html)里面看,看看多少居委会是乡村,多少村委会是城镇。当然这个问题不是最重要。
第三,在非农人口比例大的县,居委会也一定多,居委会里住的人也一定多,在这里多抽居委会的人,只是让抽出来的居委村委比例、城乡比例都和本县比例相似,除非他普遍地存在在一个居委村委半对半的地方抽了80%居委20%村委这种情况,否则就不存在任何过度代表。

使用道具

denver 发表于 2012-12-13 16:55:32 |显示全部楼层
楼上两位的讨论非常值得鼓励,学术性讨论甚至是争论使我们这个版应该积极倡导的
Denver大家一起读Paper系列索引贴:
https://bbs.pinggu.org/thread-1430892-1-1.html

使用道具

小概率事件 发表于 2012-12-13 18:49:21 |显示全部楼层
这是一个抽样设计中oversampling的问题。其关键就在于多抽取处于收入分布两端的样本,这样可以避免完全随机抽样设计下极端值样本过少产生的推断偏误。显然,这样的抽样方式不能直接用来代表总体,而必须经过抽样权重的调整。经过权重调整后,样本不仅对总体有代表性,而且由于数据中极端样本数据比完全随机下抽样的多,对总体的代表性还可能更好。
CHFS数据中提供了抽样权重的变量(swgt)供使用者在计算中进行加权调整(目前国内其他公开调查都没有公布权重),所有官方公布的数据也都是基于抽样加权的结果。
已有 2 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
静水深流 + 1 + 1 + 1 观点有启发
denver + 100 + 100 + 5 + 5 + 5 官方的解释来了,欢迎!

总评分: 经验 + 100  论坛币 + 100  学术水平 + 6  热心指数 + 6  信用等级 + 6   查看全部评分

使用道具

manchern 发表于 2012-12-14 15:19:53 |显示全部楼层
有营养的说明。希望有使用经验的能够现身说法分享心得(I will)。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加微信,回复xsdd
拉你入群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2022-5-26 16:45