楼主: lxc0531
21384 10

[问答] 缺失值处理 [推广有奖]

  • 0关注
  • 2粉丝

已卖:354份资源

硕士生

90%

还不是VIP/贵宾

-

威望
0
论坛币
870 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
2093 点
帖子
112
精华
0
在线时间
268 小时
注册时间
2007-10-25
最后登录
2014-5-5

楼主
lxc0531 发表于 2007-10-29 20:30:00 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

缺失值处理

缺失值是指在数据采集与整理过程中丢失的内容。

一般情况下,数据都是以关系型表的方式采集的,如下表是某次调查中一些受访者的基本情况见本文最后的表格。

如果在表格中,某一个数据采集时无法获得,就会出现缺失值,例如在上表中张三的性别和赵六的年龄就出现了缺失。

缺失值的处理一般有两种方式,一是删除对应的记录,例如在上例中,如果张三的性别没有记录,出现缺失,则将张三的所有信息全部从数据库中删掉。这种方式在数据缺失非常少的情况下是可行的,但如果各个项目中都有少数的数据缺失存在,对所有缺失的记录都进行删除可能就会使总样本量变得非常小,从而损失许多有用信息。缺失值处理的第二种方式是进行插值处理,所谓插值,是指人为地用一个数值去替代缺失的数值。

插值处理根据插值的不同,有如下一些方法:

1
.随机插值

根据缺失值的各种可能情况,等概率地进行插值。

例如在上例中,张三的性别有两种可能性,一是,二是,可以简单地掷一枚硬币,如果正面朝上,则赋值为,如果反面朝上,则赋值为

2
.依概率插值

随机插值是假定各种一个变量取各种值的可能性是相等的,但有些情况下,我们可以事先知道一个变量取各种值的概率,例如,我们知道在上述的单位中,女性占的比例是75%,男性的比例是25%,则在对张三的性别进行赋值时,不是按50%概率赋为,而是按75%概率赋为

3
.就近插值

就近插值是指根据缺失记录附近的其他记录的情况对缺失值进行插值,例如在上例中,张三的性别出现缺失,此时可以用其邻近的李四的性别数据替代张三的性别数据,由于李四的性别为,所以将张三的性别也赋为

就近插值是依概率插值的一种简化处理,设想在整个单位的职工中,女性占的比例是75%,则在一般情况下,与张三邻近的记录性别为的概率也应当为75%,就近插值实际上就是依概率插值。

使用就近插值时,需要对抽样过程进行必要的了解,如果抽样时性别有交叉的情况,例如经常是调查完一名男性后就调查一名女性,则使用就近插值就会出现较多的错误。

4
.分类插值

依概率插值是将记录置于总体的背景上进行插值,没有充分利用记录的其他信息。如果在记录的其他信息中有某些项目与缺失项目存在相关性,则可以根据这些辅助信息对总体进行分类,在每一类内部进行插值处理。

例如在上例中,张三的职业是护士,假定该单位中95%的护士性别为,则在进行插值是,就不是使用全单位的女性比例75%,而是使用护士中的女性比例95%对张三的性别进行赋值。

图片附件: [
数据表] .JPG (2006-6-17 01:18, 77.74 K)

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:缺失值处理 缺失值 处理缺失值 数据缺失 数据采集 缺失

沙发
zhoucf 发表于 2010-10-26 15:32:24
谢谢,很详细

藤椅
FBIM 发表于 2011-5-4 13:39:47
zanyige

板凳
空心贼 在职认证  发表于 2012-1-10 00:26:11
总结得真好!

报纸
fangmei723 发表于 2013-1-9 11:02:33
谢谢分享!

地板
nicole1825 发表于 2013-1-9 13:34:36
总结的好,有帮助!!!!!

7
苦行僧在寒武纪 发表于 2013-1-9 14:04:31
说的比较简单,实际没这么简单

8
wjygeminifei 发表于 2013-5-23 13:44:25
学习

9
happi 发表于 2013-8-18 23:54:09
很不错的总结,谢谢

10
lifengpan 发表于 2013-9-20 16:17:20
具体如何操作呢

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-27 08:42