造成数据缺失的原因
在各种实用的数据库中,属性值缺失的情况经常发
全甚至是不可避免的。因此,在大多数情况下,信息系统是不完备的,或
者说存在某种程度的不完备。造成数据缺失的原因是多方面的,主要可能有以下几种:
1
)有些信息暂时无法获取。例如在医疗数据库中,并非所有病人的所有临床检验结果都能在给定的时间内得到,就致使一部
分属性值空缺出来。又如在申请表数据中,对某些问题的反映依赖于对其他问题的回答。
2
)有些信息是被遗漏的。可能是因为输入时认为不重要、忘记填写了或对数据理解错误而遗漏,也可能是由于数据采集设备
的故障、存储介质的故障、传输媒体的故障、一些人为因素等原因而丢失了。
3
)有些对象的某个或某些属性是
不可用的。也就是说,对于这个对象来说,该属性值是不存在的,如一个未婚者的配偶姓名
、一个儿童的固定收入状况等。
4
)有些信息(被认为)是不重要的。如一个属性的取值与给定语境是无关的,或训练数据库的设计者并不在乎某个属性的取
值(称为
dont
-care value
)。 5
)获取这些信息的代价太大。
6)系 ...


雷达卡


京公网安备 11010802022788号







