楼主: abcde1928
5870 7

[数据管理求助] cfps合并成人库和家庭库(家庭经济库)出现不匹配的问题 [推广有奖]

  • 1关注
  • 0粉丝

大专生

70%

还不是VIP/贵宾

-

威望
0
论坛币
962 个
通用积分
3.2824
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
181 点
帖子
10
精华
0
在线时间
108 小时
注册时间
2022-3-13
最后登录
2024-11-12

楼主
abcde1928 发表于 2023-2-12 02:00:29 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
使用CFPS成人库作为master文件,家庭库(家庭经济库)作为using文件,使用家庭编码fid作为合并指标时,出现来自using文件的不匹配情况,为什么会这样?家庭库(家庭经济库)的家庭编码fid不应该全部来自于成人库中已经有的家庭编码吗?看了使用手册没发现关于这个问题的解答。希望各位老师帮忙看看,是我的命令使用错误,还是CFPS数据本身就是这样?
备注:已经查看过变量重复情况,成人库中,fid不唯一;家庭库(家庭经济库)中,当年的fid唯一。


CFPS2010:
代码:
use $data2010\cfps2010adult_201906.dta, clear
merge m:1 fid using $data2010\cfps2010famecon_201906.dta
结果:
    Result                           # of obs.
    -----------------------------------------
    not matched                           369
        from master                       116  (_merge==1)
        from using                        253  (_merge==2)

    matched                            33,484  (_merge==3)
    -----------------------------------------



CFPS2012:
代码:
use $data2012\cfps2012adult_201906.dta, clear
merge m:1 fid12 using $data2012\cfps2012famecon_201906
结果:
    Result                           # of obs.
    -----------------------------------------
    not matched                           202
        from master                       105  (_merge==1)
        from using                         97  (_merge==2)

    matched                            35,614  (_merge==3)
    -----------------------------------------


CFPS2014:
代码:
use $data2014\cfps2014adult_201906.dta, clear
merge m:1 fid14 using $data2014\cfps2014famecon_201906.dta
结果:
    Result                           # of obs.
    -----------------------------------------
    not matched                           451
        from master                       282  (_merge==1)
        from using                        169  (_merge==2)

    matched                            36,865  (_merge==3)
    -----------------------------------------









二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:cfps 不匹配 CFP Matched Master

回帖推荐

陈罗炜 发表于5楼  查看完整内容

根据CFPS下载官网上,用户会“数据培训”系列视频的说明,用变量fidXX对家庭经济库和个人库(成人库)进行匹配后,确实会出现无法匹配(Not matched)的数据,也就是说,这两个库并不是包含关系,而是交叉关系,对此的解释是:家庭成员问卷完访后,才会产生其他类型问卷(既家庭经济问卷、个人问卷等)。其他类型问卷是否完访是独立的(完访顺序是独立的,是否完访也是独立的)。 举例说明:从流程上来说,是先提问家庭经济问卷, ...

沙发
abcde1928 发表于 2023-2-12 02:03:53
不知道为什么发出来以后代码格式有误,更正一下:
CFPS2010代码:
(1)use $data2010\cfps2010adult_201906.dta, clear
(2)merge m:1 fid using $data2010\cfps2010famecon_201906.dta

CFPS2012代码:
(1)use $data2012\cfps2012adult_201906.dta, clear
(2)merge m:1 fid12 using $data2012\cfps2012famecon_201906

CFPS2014代码:
(1)use $data2014\cfps2014adult_201906.dta, clear
(2)merge m:1 fid14 using $data2014\cfps2014famecon_201906.dta

藤椅
七剑 发表于 2023-2-13 18:51:08
点个赞,谢谢分享!

板凳
taylorzll 发表于 2023-4-8 14:36:56
谢谢分享,很有用!

报纸
陈罗炜 发表于 2023-10-17 15:51:36
根据CFPS下载官网上,用户会“数据培训”系列视频的说明,用变量fidXX对家庭经济库和个人库(成人库)进行匹配后,确实会出现无法匹配(Not matched)的数据,也就是说,这两个库并不是包含关系,而是交叉关系,对此的解释是:家庭成员问卷完访后,才会产生其他类型问卷(既家庭经济问卷、个人问卷等)。其他类型问卷是否完访是独立的(完访顺序是独立的,是否完访也是独立的)。
举例说明:从流程上来说,是先提问家庭经济问卷,再提问个人问卷,因此不应该出现fid18出现在个人库中,但没有出现在家庭经济库中的情况。但CFPS用户会“数据培训”系列视频  (Chinese Version)中好像有提到,进行调查的时候,不一定按照特定的顺序进行,需要调查员通过自己的判断灵活决定,比如时间紧张的情况下,已经无法完访家庭经济库,但家庭经济库已经完成了“家户收入”整个大模块的数据采集,这时调查员也可能直接跳到个人问卷部分,使个人问卷有时间可以完成“上学确认”、“教育史”、“婚姻” 模块,从而达到发布的标准。
由此,也可以合理猜测,某些情况下,可能是先完成了个人问卷,家庭经济问卷则没有完访问,因此出现了有个人问卷fid,但没有家庭经济问卷fid的情况。

地板
abcde1928 发表于 2023-11-2 17:17:13
陈罗炜 发表于 2023-10-17 15:51
根据CFPS下载官网上,用户会“数据培训”系列视频的说明,用变量fidXX对家庭经济库和个人库(成人库)进行 ...
感謝!

7
叫什么名字lyj 发表于 2025-7-17 11:35:35
abcde1928 发表于 2023-2-12 02:03
不知道为什么发出来以后代码格式有误,更正一下:
CFPS2010代码:
(1)use $data2010\cfps2010adult_201 ...
请问最后怎么解决了呀

8
赵安豆 发表于 2026-3-3 21:35:36
在CFPS数据中,出现成人库与家庭经济库合并时的不匹配问题,通常有以下几种可能原因:

1. **时间差异**:成人数据库和家庭经济数据库的数据收集时间可能不同。例如,在成人数据库完成采集后进行的家庭经济状况调查可能导致部分家庭信息尚未更新到成人数据库中。

2. **样本流失**:在数据采集过程中,可能会出现由于搬家、外出务工等原因导致的受访者无法联系的情况,这部分数据在后续的合并过程中就会产生不匹配问题。

3. **编码错误或变更**:尽管你提到fid在各库中的唯一性,但可能因为数据录入错误或者家庭结构的变化(如分家),导致同一代码在不同的数据库中被分配给不同的实体。

4. **子样本差异**:CFPS的成人库包含的是16岁以上的个人信息,而家庭经济库可能是以户为单位,可能有部分户内成员年龄小于16岁,在成人库中没有对应的记录,但这些家庭在家庭经济数据库中有数据,因此合并时会显示不匹配。

5. **数据清洗与处理**:在数据预处理阶段如果没有对缺失值、异常值进行妥善处理,也可能导致合并过程中的不匹配。

解决策略:

- 在合并前,应仔细检查数据集的元数据文档或使用手册,了解两个数据库的数据采集时间、样本描述等信息。
- 使用条件merge,即指定只有在成人库中出现的家庭编码才能被合并。这可以通过`keep if`命令实现,在merge之前将家庭经济库中的数据限定为与成人库匹配的部分。
- 对于不匹配的情况进行记录和分析,尝试找出具体原因,并根据实际情况决定是否需要这些数据。

例如:

```stata
use $data2010\cfps2010adult_201906.dta, clear
merge m:1 fid using $data2010\cfps2010famecon_201906.dta, keep(master match)
```

以上命令会只保留成人库中出现过的家庭编码数据,避免不匹配的记录。但是,这可能会导致部分数据丢失,需要根据研究目的权衡利弊。

此文本由CAIE学术大模型生成,添加下方二维码,优先体验功能试用



您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-3-8 11:42