这个主要看你要用什么样的处理方法和思路——
几种单一的填补方法
①均值填补(mean imputation) 均值填补是用样本中有观测值的均值代替缺失值,可分为非条件均值填补和条件均值填补。非条件均值填补是指对所有的缺失值,用所有观测值的均值进行填补,因此所有填补值都是相同的。条件均值填补是利用辅助信息,对总体进行分层,使各层中的各单 元尽可能相似,然后在每层中用该层有响应单位的均值填补该层中的缺失值。分层均值填补比非条件均值填补的填补效果好。但是均值填补通常改变了变量的 变异程度,低估填补变量的方差。因此一般情况下均 值填补比较适合简单的描述性研究,不适应于较复杂 的需要方差估计的分析。
②演绎填补(deducive imputation) 演绎填补法是通过可以搜集到的复杂资料,依据 逻辑和常规,对缺失数据进行推断,找出填补值。用公式表示就是Z i = f(X i ),其中z i 为第i 个缺失数据的填 补值,X i 是辅助变量,f(* )是根据缺失数据的目标变 量y 与辅助变量 X 之间的逻辑运算关系构造的函数。 该方法操作简单,在有高质量的辅助信息下,可以提供准确或近乎准确的填补值,但其效率很大程度上依赖于辅助资料是否充分。
③回归填补(regression imputation) 回归填补是由单元的缺失项对观测项的回归,用预测值代替缺失值。通常由观测变量及缺失变量都有观测的单元进行回归计算。填补中还可以给填补值增 加一个随机成分,这种方法称为随机回归填补。它是用回归填补值加上一个随机项,预测出一个缺失值的替代值,该随机项反映所预测的值的不确定性影响。 随机回归填补法能够较好的利用数据提供的信息,解决因预测变量高度相关引起的共线性问题。
|