CHARLS个人工资计算方法
CHARLS(中国健康与养老追踪调查)数据中,个人工资收入的计算需结合问卷中的具体模块,通常涉及劳动收入部分,可能包含以下步骤:
1. 数据来源与变量识别
- 核心变量:
- 在CHARLS问卷中,工资收入可能分布在不同年份的模块中,例如:
- 2011年及以后问卷:
- 个人层面:查看“就业、退休和养老金”模块中的“当前工作的月收入”(变量名可能为 `incwage` 或类似)。
- 若为农业劳动:需结合“农业生产与经营”模块中的农业收入(如 `agrincome`)。
- 注意:部分年份可能将工资收入拆分为“基本工资”“奖金”“补贴”等细分项(如 `wage_base`、`wage_bonus`),需相加计算总和。
- 家庭层面数据:若个人数据缺失,可通过家庭收入拆分(如 `fam_inc`),但需谨慎处理(需明确家庭收入是否可分配到个人)。
2. 计算逻辑
- 月薪计算:
若问卷直接询问“月收入”,可直接使用该变量(需注意单位是否为人民币元)。
- 年薪转换:
若数据为“年收入”(如 `inc_annual`),需除以12转换为月薪(注意是否包含年终奖等一次性收入)。
- 农业/非农业收入区分:
- 非农就业者:工资收入 = 月薪(或年薪拆分)。
- 农业就业者:工资收入可能包含农产品销售收入、补贴等,需根据问卷定义计算(如 `agrincome` + `agr_subsidy`)。
数据大量缺失的解决方法
若CHARLS数据中个人工资收入存在大量缺失,可尝试以下策略:
1. 数据清洗与筛选
- 识别缺失类型:
- 完全随机缺失(MCAR):缺失与变量本身无关(如受访者漏填)。
- 非随机缺失(MNAR):缺失与收入水平相关(如高收入者拒绝回答),需谨慎处理,避免偏差。
- 筛选有效样本:
剔除明显异常值(如收入为负数、极端值),并保留有完整相关变量(如教育程度、就业状态)的样本,用于后续填补。
2. 缺失值填补方法
- 单变量填补:
- 均值/中位数填补:用同组别(如按年龄、性别、地区分组)的均值或中位数填补。
适用场景:数据近似正态分布或缺失机制为MCAR。
- 热卡填补(Hot-Deck):从相似特征的样本中随机选取值进行填补(如找同地区、同职业的非缺失值样本)。
- 多变量填补(回归模型):
- 逻辑:利用其他变量(如教育年限 `edu`、工作年限 `work_year`、行业 `industry`、职位 `occupation`)构建回归模型,预测缺失的工资收入。
- 常用模型:
- 线性回归(适用于连续型收入)。
- 分位数回归(保留收入分布特征,避免均值填补的偏差)。
- 随机森林或机器学习模型(处理非线性关系,如XGBoost、LightGBM)。
- 步骤:
1. 用完整数据训练模型,预测缺失值。
2. 对填补值添加随机误差项,避免模型过度拟合导致的方差低估。
- 多重插补(MI):
使用MICE(Multiple Imputation by Chained Equations)方法,生成多个填补数据集,结合后推断参数,减少单一填补的偏误。
3. 结构性处理(规避缺失)
- 分组聚合分析:
若个体层面缺失严重,可将分析单位提升至家庭或地区层面,计算均值、总和等统计量(如家庭总收入、地区平均收入)。
- 替代指标:
用其他收入变量替代工资收入,例如:
- 财产性收入(`property_inc`)、转移性收入(`transfer_inc`)。
- 若问卷包含“是否有工作”(`employment`),可构建二元变量分析就业与非就业群体的差异。
- 敏感性分析:
对比填补数据与原始非缺失数据的统计结果,评估缺失值对结论的影响(如检验均值差异是否显著)。
4. 数据匹配与外部补充
- 内部匹配:
利用CHARLS的追踪特性,使用同一受访者往年的工资数据进行填补(如用2013年数据填补2015年缺失值,需假设收入趋势稳定)。
- 外部数据融合:
结合公开统计数据(如国家统计局的行业收入报告)或其他数据库(如CHIP、CLDS),补充CHARLS缺失的收入信息。
注意事项
1. 数据文档查阅:
务必参考CHARLS官方数据说明书(Codebook),确认工资收入变量的定义、单位及调查年份差异(不同年份问卷结构可能调整)。
2. 缺失机制假设:
填补方法需明确假设缺失机制(如MCAR、MAR),并在论文或报告中说明,避免误导结论。
3. 结果透明度:
汇报分析时需注明缺失值比例、填补方法及敏感性检验结果,确保研究可复现。


雷达卡


京公网安备 11010802022788号







