楼主: leejs
48236 64

[数据求助] 在CHARLES中如何计算个人年收入和家庭年收入? [推广有奖]

31
dr7788 发表于 2019-4-18 12:43:32
呼呼兔的胡图图 发表于 2019-4-17 12:47
您好。如果您想知道主要受访者和配偶的农业收入可以从FC模块获知。比如FC007
您好!我发现2015年的问卷和数据根本没有FC002-FC007

32
dr7788 发表于 2019-4-18 13:19:18
呼呼兔的胡图图 发表于 2019-4-17 12:47
您好。如果您想知道主要受访者和配偶的农业收入可以从FC模块获知。比如FC007
这样的话,是否意味着,2015年就无法用收入相关的数据了?因为根本没有公布

33
呼呼兔的胡图图 学生认证  发表于 2019-4-18 14:18:58
dr7788 发表于 2019-4-18 13:19
这样的话,是否意味着,2015年就无法用收入相关的数据了?因为根本没有公布
我觉得可以。2015年我了解得不多,但是我认为它只是将各种程序做得精细化了,需要的农业收入还在。
比如在当受访者回答“除了农业生产外没有其他的非农工作”意味着受访者是单纯的农业从业人员,然后跳至FC021,FC021又将农业工作划分为挣工资,个体或者家庭帮工,如果想知道具体的工资可以分别跳至FD,FH。FD模块的工资可以在FF模块找到;FH模块的工资在FH010。除此之外还有非主要职业FJ模块,以及最近的工作FL模块。比如如果前边的工作状态缺失,受访者会被问到FL001,然后再根据各种不同的回答跳至指定的问题。
更具体的参见问卷各个部分的程序控制。

income_agriculture
——————————————————————————————————更正,分割线以上为原答案
以上提到的农业收入表示的应是农业受雇,个体层面的收入(除了养老保险、转移收入和财产性收入)主要关注的是挣工资工作和非农自雇。如果是自家农业生产活动,搜集的资料是家户层面的。
structure of income agricultural_income

根据Uses' Guide的提示,个人的农业收入从家户模块获得,但是如果没有其他家户成员参与农业活动(gb001==2),这部分收入会缺失。在2015年的codebook显示9761个受访者回答了“没有其他家庭成员参与农业活动”,同时单独计算仅从事自家农业生产活动的Obs数量,有6447个。merge之后显示主要受访者和配偶从事农业活动但是没有其他家庭成员参与农业活动的有4776个,这些人的农业收入现在看来是缺失的。
  1. . count if fc001==2 & fc008==1 & fc014==2
  2.   6,447
复制代码
如何计算这个变量,欢迎来一起讨论。


34
Misszhou早早早 发表于 2019-4-23 20:52:53
呼呼兔的胡图图 发表于 2019-4-18 14:18
我觉得可以。2015年我了解得不多,但是我认为它只是将各种程序做得精细化了,需要的农业收入还在。
比如 ...
GA002_bracket 对工资收入进行了分级 数据库中分为两个变量,最低和最高 图一里GA002_bracket将工资收入分为了几个级别,在图二的数据库中该变量有最大和最小两个内容,在将该工资级别归还到工资收入中时,该怎么还呢?取值为多少?谢谢大神,感激不尽!

35
呼呼兔的胡图图 学生认证  发表于 2019-4-23 21:02:39
Misszhou早早早 发表于 2019-4-23 20:52
图一里GA002_bracket将工资收入分为了几个级别,在图二的数据库中该变量有最大和最小两个内容,在将该工资 ...
我之前的做法当ga002缺失时取区间的中间值代替。
  1. replace ga002 = (ga002_bracket_min + ga002_bracket_max) / 2 if mi(ga002)
复制代码


但是我用的变量给的区间太大,导致出现很多离群值,所以我放弃使用中间值了,让缺失的数值依然缺失。

36
Misszhou早早早 发表于 2019-4-24 15:44:54
呼呼兔的胡图图 发表于 2019-4-23 21:02
我之前的做法当ga002缺失时取区间的中间值代替。
好的谢谢。

37
呼呼兔的胡图图 学生认证  发表于 2019-4-25 09:45:13
Misszhou早早早 发表于 2019-4-24 15:44
好的谢谢。
没事的,有什么问题我们继续在论坛帖子中讨论,这样如果有问题别人也好及时指正~

38
xxbxxb789456 学生认证  发表于 2019-4-25 13:30:35
呼呼兔的胡图图 发表于 2019-4-23 21:02
我之前的做法当ga002缺失时取区间的中间值代替。
放弃使用bracket分级提问变量,让缺失值依然缺失会存在一个问题,那就是,计算结果会比实际值小不少,因为bracket变量填补的那些空缺值并不是真的空缺或者等于0,而是被访者不愿意回答具体数字,所以利用bracket里面的数值去替代

39
xxbxxb789456 学生认证  发表于 2019-4-25 13:40:14
呼呼兔的胡图图 发表于 2019-4-25 09:45
没事的,有什么问题我们继续在论坛帖子中讨论,这样如果有问题别人也好及时指正~
还有个问题想请教,不知你有没有使用个人转移支付的数据,也就是ga004,这个问题的第一个变量ga004_1_是问被访者过去一年一共领了多少养老保险(包括职工基本养老金,补充养老保险,城镇居民养老保险,新农保,征地养老保险,商业养老保险。。。。。。等等),我tab了一下,其中大于0的样本才几百个。在前面部分的问卷中,还单独对每一项养老保险进行了单独提问(也是包括职工基本养老金,补充养老保险,城镇居民养老保险,新农保,征地养老保险,商业养老保险。。。。。。等等),我自己把每一项养老保险单独提问的数据做了加总,tab以后发现,大于0的样本有好几千个,为何会相差这么大呢?

40
呼呼兔的胡图图 学生认证  发表于 2019-4-27 15:06:45
xxbxxb789456 发表于 2019-4-25 13:40
还有个问题想请教,不知你有没有使用个人转移支付的数据,也就是ga004,这个问题的第一个变量ga004_1_是问 ...
出现不一致的情况是正常的,毕竟这两个部分的侧重点不同,Work Module 针对每一项养老金展开了详细的询问,比如我关注新农保,我会使用Work Module的信息;Income Module 的重点显然不是养老金。至于它们不一致的情况,我是参考Pilot User's Guide中对工资的方法进行double check,但是以Work Module为主。
pilot_wage_income

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-17 08:26