楼主: 我是小趴菜
1511 0

[数据挖掘新闻] 类别型数据缺失处理方法 [推广有奖]

  • 0关注
  • 4粉丝

教授

35%

还不是VIP/贵宾

-

威望
0
论坛币
29650 个
通用积分
380.5350
学术水平
1 点
热心指数
1 点
信用等级
0 点
经验
7150 点
帖子
670
精华
0
在线时间
37 小时
注册时间
2022-8-30
最后登录
2023-4-4

楼主
我是小趴菜 发表于 2022-10-27 11:25:46 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

类别型数据缺失处理方法有:

(1)直接忽略法。例如:当数据有缺失值时,则将整笔数据删除。直接忽略法是处理数据缺失最简单的方法,一般的,当缺失数据占整个字段所有数据的比例过大时(>50%),便可直接删除。直接忽略法适用于搜集的数据量很多,而缺失数据只占一小部分的情况。这种方法也有其缺点,即当数据缺失比例很可观时,会造成大量数据流失数据的目标字段的值是空值的时候,使得数据分析结果不准确。

(2)人工填补法。人工填补法即使用人力再收集缺失的数据。例如当某会员数据的生日属性有缺失,可打电话询问该会员,以取得其生日并加以填补。通常这种方法很费时,因此当数据集很大且缺失值很多的时候,该方法可能行不通。

(3)自动填补法。对同一个属性的所有缺失值,用一个事先确定好的值来填补,例如:都用“Unknown”来填补。但当一个属性的缺失值较多的时候,该方法会误导挖掘过程。也可以填入该属性的众数(Mode),如下表中Risk的众数是high,所以缺失值可以填补为high,但是填补众数的方法不够客观。我们也可用分群的方式,分类求众数,比如credit与Risk之间存在相关性,因为在下表中我们可以看出credit中有5个green,而其中4个green都对应着Risk=high,所以当credit=green时,Risk更有可能是high,所以在第二行的Risk可以被填补为high,这样的填补方法更加准确。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:处理方法 数据缺失 UNKNOWN Credit Green

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-2-5 08:32