①目前处理缺失值的主流方法有删除元组(即存在遗漏信息属性值的对象)和补齐数据两种方法,补齐数据的方法包括插值法、均值替换法、热卡填充法、回归替换法和多重替代法等。A.不采用删除元组的方法是由于这种方法适用于调查对象包含多个属性值的情形,当被删除的含缺失值的对象与信息表中的数据量相比非常小的情况下时比较有效,但是这种方法是以减少历史数据为代价换取数据的完备,会造成有效资源的浪费,同时也丢弃了大量隐藏在这些对象中的信息,在本文中由于包含信息相对而言并不多,删除少量对象足以影响到信息的客观性和结果的正确性,因此不采用删除元组;B.不采用均值替换法是由于这种方法建立在完全随机缺失(MCAR)的假设之上的,会产生有偏估计,造成变量的方差和标准差变小;C.不采用热卡填充法是由于在回归方程中,使用热卡填充法容易使得回归方程的误差增大,参数估计变得不稳定,而且这种方法使用不便,比较耗时;D.不采用回归替换法是由于第一,该方法虽然是无偏估计,但是却容易忽视随机误差,低估标准差和其他未知性质的测量值,而且这一问题会随着缺失信息的增多而变得更加严重,第二,必须假设存在缺失值所在的变量与其他变量存在线性关系,很多时候这种关系是不存在的;E.不采用多重替代法是由于这种方法虽然能够反映出由于数据缺失而导致的不确定性,产生更加有效的统计推断,但由于计算过程过于复杂,且适用于样本量较大的数据分析,并不适用于本文中的数据缺失情形。
②插值法。目前插值法的主要方法包括泰勒插值法、拉格朗日插值和牛顿插值法等。泰勒插值法需要保证在余项中满足n阶可导的条件,这个条件过于苛刻,泰勒插值法并不常用;拉格朗日插值法由于每增加一个新节点都要重新进行计算,并不具有承袭性,同时在插值区间内插值的精度远远大于区间外的精度,即区间外拉格朗日插值是不准确的,因此拉格朗日插值法也不适用;
本文采用插值法中的牛顿插值法,同时由于数据是按照年份分布的离散型等距样本,因此采用牛顿前向等距节点插值公式。
|