1、首先进行数据预处理,主要是变量的重命名和重新分组编码,分类变量转换成因子型
2、由于变量主要为类别变量,采用众数填补缺失值
3、进行交互效应分析,首先对数据进行中心化处理,其次是交互项建模和检验,最后对结果进行解释
4、使用effects包可视化交互效应
缺失值处理
一般来说,如果是数值型变量,若存在的变量值是正态分布则选择均值填充,若是偏态分布,则选择中位数填充;
如果不是数值型变量,则选择众数填充
交互效应分析1.中心化2.交互项建模(自变量分为居住地城乡和户籍城乡)
3.交互效应检验
模型解释
1. 自变量为居住地城乡区别模型:
城市地区的人均年收入显著高于农村地区,男性收入显著高于女性,高中教育对收入增加具有显著影响
年龄对收入的影响呈现先增加然后再下降的变化趋势,交互项方面城市人口受年龄的负面影响更大
2. 自变量为户口身份城乡区别模型:
城市户口显著高于非城市户口人群,男性显著高于女性,高中教育对收入增加具有显著正向影响
年龄对收入的影响呈现先增加然后再下降的变化趋势,交互项方面城市人口受年龄的负面影响更大,受性别、教育水平的正向影响大
交互效应可视化
- cgss2017.csv
- 收入的城乡和性别差异——基于cgss2017的交互项分析.pdf