楼主: 哈登最时尚
4409 2

[实际应用] 缺失值较多的属性仍然排名随机森林重要度排序前列,该如何理解这个问题? [推广有奖]

  • 0关注
  • 0粉丝

学前班

80%

还不是VIP/贵宾

-

威望
0
论坛币
1 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
90 点
帖子
1
精华
0
在线时间
4 小时
注册时间
2016-5-30
最后登录
2016-12-11

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

请教各位:

R语言做分类问题,有一个属性的缺失值达到40%。直接使用上一个单元格的值填补空值。在随机森林模型中,重要度排序第一。决策树模型中,该属性也是常居于树的根节点。
应该如何看待这个问题?

是说明这个属性真的非常重要?还是有其他原因?


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:随机森林 如何理解 缺失值 单元格 R语言 如何 森林

沙发
jgchen1966 发表于 2016-12-7 20:26:16 |只看作者 |坛友微信交流群
缺失值,是一个复杂问题,但你因只有一个变量有缺失,用相关统计方很容易明确你的疑问的:
  一、缺失可能不是随机的,缺与不缺,本身包含有信息。如,工业型企业,该有应收账款,但就是有一类企业没有,在财报上缺失。因此,用缺与不缺,再设一个因子变量,瞧瞧它是否有统计意义
  二、将缺失值,完全删除,瞧瞧此变量还有意义吗??
三、用其它二三种补缺失值方法补缺失,瞧瞧它还有意义吗,并有何区别!!
四,有其它统计学习模型,如ababoost ,lasso等,睢瞧它有否统计意义!!
   最后,有缺失,就意味着信息缺失,任意统计模型,都 无法弥补缺失的信息量!!任何补缺失方法,仅仅减少已有信息量的进一步减少!!!
已有 1 人评分学术水平 热心指数 收起 理由
nuomin + 1 + 1 热心帮助其他会员

总评分: 学术水平 + 1  热心指数 + 1   查看全部评分

使用道具

藤椅
jgchen1966 发表于 2016-12-7 20:29:41 |只看作者 |坛友微信交流群
缺失值,是一个复杂问题,但你因只有一个变量有缺失,用相关统计方很容易明确你的疑问的:
  一、缺失可能不是随机的,缺与不缺,本身包含有信息。如,工业型企业,该有应收账款,但就是有一类企业没有,在财报上缺失。因此,用缺与不缺,再设一个因子变量,瞧瞧它是否有统计意义
  二、将缺失值,完全删除,瞧瞧此变量还有意义吗??
三、用其它二三种补缺失值方法补缺失,瞧瞧它还有意义吗,并有何区别!!
四,用其它统计学习模型,如ababoost ,lasso等,睢瞧它有否统计意义!!
   最后,有缺失,就意味着信息缺失,任意统计模型,都 无法弥补缺失的信息量!!任何补缺失方法,仅仅减少已有信息量的进一步减少!!!

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 14:27