楼主: mn--__bay
34179 24

[数据管理求助] CFPS数据里好多“不适用”,请问是什么意思,是数据缺失吗? [推广有奖]

11
天南水北 发表于 2018-6-27 22:01:24
你用别人的数据,不顺便下载数据说明书的吗?

12
persisTWang213 发表于 2018-9-4 16:06:57
Shendi14 发表于 2018-6-27 00:02
给CFPS项目组发过咨询邮件,说“不适用”是由于问题的逻辑跳转造成的。详细情况参见问题下面的【CAPI】
谢谢,很有帮助

13
persisTWang213 发表于 2018-9-4 16:07:01
Shendi14 发表于 2018-6-27 00:02
给CFPS项目组发过咨询邮件,说“不适用”是由于问题的逻辑跳转造成的。详细情况参见问题下面的【CAPI】
谢谢,很有帮助

14
卫星天线09 发表于 2018-12-26 15:17:01
所以“不适用”的数据要在哪里找呢?看了后面的相关问题,也大部分是不适用

15
卫星天线09 发表于 2018-12-29 15:20:02
罗春 发表于 2018-4-25 09:52
同问啊,还有cfps2014结婚日期也是缺失90%
请问结婚日期一块怎么处理的?

16
鹊桥仙子 学生认证  发表于 2019-4-1 20:49:22
Shendi14 发表于 2018-6-27 00:02
给CFPS项目组发过咨询邮件,说“不适用”是由于问题的逻辑跳转造成的。详细情况参见问题下面的【CAPI】
是的,“不适用”不完全等于“数据缺失”,是这个地方本身就没有数据。有些变量有大量的“不适用”的情况,需要结合其他问题来得到想要的指标。

17
卞凌子 发表于 2019-12-22 20:14:58
卫星天线09 发表于 2018-12-29 15:20
请问结婚日期一块怎么处理的?
请问这个问题您解决了吗?结婚日期应该怎么求呢?

18
卞凌子 发表于 2019-12-22 20:49:34
罗春 发表于 2018-4-25 09:52
同问啊,还有cfps2014结婚日期也是缺失90%
请问这个问题您解决了吗?同求结婚时间怎么办呀

19
蓝鲸小龙虾 学生认证  发表于 2020-1-31 16:09:02
Coathen1993 发表于 2017-9-12 14:28
请问那受访者的最高学历那个变量,缺失了得有百分之八九十,这个又是咋回事?求解答
您好请问这个问题解决了吗?

20
晶晶哈哈 学生认证  发表于 2020-3-11 09:28:29
http://www.isss.pku.edu.cn/cfps/wdzx/cfpsxkt/1295293.htm  请不要问我,我“不知道”,我“拒绝回答”...... 【cfps中的缺失值处理】



当用户在查看由CFPS数据集生成的变量频数表时,可能会经常发现里面包含有“不适用”,“不知道”,“拒绝回答”等缺失值,有时这些缺失值占的比例还较大。为什么会有这些不同类型的缺失值?如何确认这些缺失值是否合理?用户在处理这些缺失值数据时需要注意些什么?CFPS小课堂第七讲来为大家对CFPS的缺失值做一个基本的介绍。

一、CFPS中缺失值的主要类型
1、问卷系统跳转造成的缺失
这种类型的缺失值在数据库中一般用“-8”(不适用)来表示。CFPS从全国基线调查开始就采用计算机化访问系统,这种访问模式的一个主要优点是可以根据调查对象的具体情况实现较为灵活的问题定制。譬如说只对从事农业生产的家户具体询问关于农产品收入和资金投入的问题,对于那些不从事农业生产的家户来说这些问题相关的变量在数值上就体现为-8。
2、不同问卷类型合并造成的缺失
从CFPS2012开始,在面访自答问卷的基础上,CFPS又引入了电访问卷、代答问卷等多种问卷。譬如说家庭经济问卷有面访问卷和电访问卷,而成人问卷有面访自答问卷、电访自答问卷和代答问卷。这些问卷在总体结构上尽量保持一致,但具体问卷的详细度和复杂度都有差别。为了方便用户使用数据,CFPS在发布数据时将同一种问卷(如成人问卷)的不同问卷类型(如面访自答、电访自答、代答)进行了整合,形成了一个单一数据库。在这个数据库中,对于那些只在其中特定问卷类型下出现的变量则会产生部分的缺失值,这种缺失值一般在数据库中是用“.”来表示的。譬如说在成人库中,只有参与了面访自答问卷的样本才会有认知测试,其它样本在认知测试相关变量上的数值则为“.”。
3、受访者原因造成的缺失
这种类型的缺失值在数据库中一般用“-2”(拒绝回答)和“-1”(不知道)来表示。这是指受访者已经被问到该题,但由于各种原因没有提供有效应答的情况。对于大部分情况,CFPS对于该题的采集到此为止,但在一些涉及到资产或收入的变量时会采用“逼近法”的方式进行区间的估计。

二、如何确认不同的缺失值类型
1、确认问卷系统跳转造成的缺失
单纯看数据库以及codebook是不够的,你需要仔细阅读我们的问卷。问卷中红色字体的部分很多是与问卷跳转相关的。譬如类似下面这种以【CAPI】打头的红色部分就明确列出了跳转条件。
【CAPI】若CFPS2012_age>3岁,提问A2M,否则跳至A101。
除此之外,还有紧跟在某一道问卷答案后面的跳转。
例:Q204 您是否曾经吸烟?
1. 是(继续回答Q205) 5. 否(跳至Q301)
需要注意的是,有时候影响某道题的跳转是直接在这道题的当前位置,有时可能在问卷更前面的地方,影响到多道题或一整个模块的整体跳转。
2、确认不同问卷类型合并造成的缺失
用户一方面可以通过阅读问卷,确认某一道题是否在不同的问卷类型中都存在。其次,CFPS2012和CFPS2014的清理技术报告中均包括一部分关于问卷合并的描述,并列出了部分只在某种特定问卷中出现的变量,以供用户参考。

三、处理CFPS数据缺失值时需要注意的问题
是不是在遇到CFPS中的缺失值时,我们或者得“忍痛割爱”地删除有缺失值的观测,或者得用复杂程度不等的统计方法来进行插补呢?事实并不总是这样的,因为CFPS中有一部分表面看起来的缺失值是可以补齐的。
1、由于某类问题不适用而从设计上跳过的题
譬如之前提过的家庭经济问卷中关于农业生产的相关的收入和支出变量,对于不从事任何农业生产的家庭,这些变量用户在后期具体处理时可以根据需要将其设置为0.
2、追踪调查设计时由于前期访问已经采集到信息而跳过的题
为了提高调查的效率,CFPS在追踪访问时,对于已经有过信息采集的部分变量不再重复进行采集。用户在使用追踪年的这些变量时会发现存在大量的缺失值,这些缺失值大都可以结合往期数据补齐。譬如下面这道在CFPS2014中出现的对民族成分的采集题,它只针对那些初次进行个人访问或者之前民族信息空缺的样本提问。用户如果要使用这个变量,可以结合往期调查的数据将这个变量的缺失值补齐。
【CAPI】CFPS2012_interv=0或CFPS_minzu=0(无有效数据),继续提问A701;否则跳至A9之前的CAPI。
A701 QA701"您的民族成分"您的民族成分是:_________
总之,了解CFPS问卷的设计意图是理解数据中缺失值是否合理的关键,也只有在理解了缺失值存在的原因之后,才能更有效地对这些缺失值进行相应的处理。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-1-14 08:33