楼主: dufe2023
715 6

[数据管理求助] 多重插补的时机 [推广有奖]

  • 0关注
  • 0粉丝

高中生

5%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
1.7336
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
113 点
帖子
2
精华
0
在线时间
53 小时
注册时间
2023-9-2
最后登录
2025-11-23

楼主
dufe2023 发表于 2025-5-27 21:18:35 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
本人在使用2014-2022年的CFPS数据中,遇到了一些变量存在缺失值(即使向用往年数据填补后还是缺失),因此想要利用多重插补进行填充。

现在的问题,是在历年原始数据集中进行插补,再用插补后的数据合并为一个新的数据集。还是在我整理好跨年数据集形成一个预计回归的数据集后,对缺失值进行多重插补?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:多重插补 数据合并 cfps 原始数据 数据集 CFPS数据处理;多重插补

沙发
dufe2023 发表于 2025-5-28 18:22:35
是原始数据插补,还是整理后的数据插补?还是反正都插补了,无所谓什么时候插补

藤椅
yiyijiayuan 在职认证  发表于 2025-5-29 05:57:39
坚决路过。

板凳
Killua609 发表于 2025-5-29 07:12:53
现在的问题,why不找资料补充?

报纸
waitlan 在职认证  学生认证  发表于 2025-5-29 08:50:36
感谢分享,学习了!

地板
wdlbcj 学生认证  发表于 2025-5-29 13:47:06
要明确能否进行插补 是否合适
有些变量就是缺失的

7
赵安豆 发表于 2025-9-8 13:53:34
在处理时间序列数据或面板数据时,如CFPS(China Family Panel Studies)这种包含多年份的调查数据,遇到缺失值是常见的问题。对于你提出的选择:是在历年原始数据集中进行插补还是在整理好跨年数据集后进行插补,建议采取以下步骤:

1. **初步清理与分析**:
   - 首先,在原始年度数据集上进行一些基本的数据清洗和质量检查,包括识别缺失值的模式(随机、完全随机或非随机缺失),以及了解缺失值背后可能的原因。

2. **在历年原始数据集中插补**:
   - 建议首先对每个年份的数据独立使用多重插补。这样可以利用该年度内的所有信息进行插补,而且如果各年的变量定义有变化(比如量表或分类的更改),那么分别处理可以更好地反映这些差异。
   - 使用多重插补时,选择合适的插补模型很重要,考虑使用能够体现时间序列特性的方法,如纵向数据插补技术。

3. **整合跨年数据集**:
   - 在对历年数据完成插补后,将它们合并成一个连续的面板数据集。这样做的好处是,你可以确保在每个时点上使用的预测模型和参数保持一致。
   - 跨年数据集中可能还会出现新的缺失值(比如某一年份的数据未完全插补或新产生的缺失),这时可以考虑再次进行插补处理。

4. **二次插补与检验**:
   - 如果合并后的数据集仍有缺失,再对该整合数据集使用多重插补技术进行第二次插补。
   - 插补后应检查数据的完整性和合理性,包括时间趋势的一致性、变量间的相关性等,确保插补结果符合实际情况。

综上所述,建议先在历年原始数据集中独立进行插补,然后将数据整合成面板数据集。在形成面板数据集的过程中或之后,如果发现仍有缺失值,则再进行相应的处理。这样可以充分利用各年份内部的信息,并尽可能保持时间序列特性的一致性。

此文本由CAIE学术大模型生成,添加下方二维码,优先体验功能试用



您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-2-8 04:48