使用SPSS的进行缺失值填补的一般流程:
步骤1:缺失值描述这是基本的过程,分析人员需要对数据有总体的考量,像缺失比例(过大不宜填补)、缺失值分布(单调情况)、什么类型的缺失值等等。
|
步骤2:一般来说,侦察变量间是否存在相关关系是必要的,缺失值分析是利用相关变量对缺失值进行填补,如OLS估计中回归模型的填补、ML估计中变量间的相关信息(amos)等。这些过程可以利用软件的统计过程加以确定,也可以直接解读缺失值分析过程里的一些选项,像缺失值的t检验。缺失值分析中通常需要变量间存在相关关系,这也是分析的基础。
|
步骤3:变量间的相关关系,有可能是线性的,也可能是非线性的。那么变量间的线性关系可以通过散点图描述。通常来看,线性的关系建议使用回归模型填补、非线性的使用EM的方法填补。
|
如果SPSS用户希望获得多重插补的结果。
可以使用多重归因过程,提供MCMC(缺失比例过大或能利用的完整数据比较少,该方法结果往往无法收敛)和单调两种填补的方法,也可以贝叶斯的方法(amos)。当然这个过程中的单调性检查也是必要的。参见:https://bbs.pinggu.org/thread-2349878-1-1.html
|
至于多重插补数据集结果分析的方法有:
不同数据集的筛选或者综合利用完整数据信息。
1)根据模型拟合度的优劣筛选数据。
例如:建立不同组的模型,比较模型优度指标R方。
2)根据项目判断更适合项目需求或实际意义的数据集。
例如:主要检查变量的显著性,看哪个结果更符合实际情况。
3)利用完整信息获得相关统计量
例如:可以计算联合标准误,spss针对多重归因的数据会有相应过程默认处理。