楼主: dqhl1990
5151 6

[问答] R语言randomForest中进行分类,处理的数据有大量的missing value该如何是好 [推广有奖]

  • 0关注
  • 0粉丝

等待验证会员

小学生

57%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
49 点
帖子
5
精华
0
在线时间
7 小时
注册时间
2015-5-15
最后登录
2017-2-28

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
如题,不知道该怎么处理了,请各位指点迷津
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:randomForest missing Forest random value 如何 randomForest

沙发
ryoeng 在职认证  发表于 2015-5-15 11:08:33 |只看作者 |坛友微信交流群
提示: 作者被禁止或删除 内容自动屏蔽

使用道具

藤椅
dqhl1990 发表于 2015-5-15 11:24:21 |只看作者 |坛友微信交流群
ryoeng 发表于 2015-5-15 11:08
NA值的话,na.omit 应该就可以可吧?
我看到文档里说是少量的NA的话可以用,但是我的数据集里面feature特别多,相应的每一个样本就有很多的missing value了,na.omit因该是直接删除含有na的样本的意思吧,这样的话估计就都删除了,对不?

使用道具

板凳
jgchen1966 发表于 2015-5-15 11:52:33 |只看作者 |坛友微信交流群
关键要先确定,NA 为什么成为missing data 了!!然后R 中学习相应的NA处理的统计包!有很多。。。
如公司财务报表,很少有公司,每项财务数据都存在的,因此NA 实为零!!

使用道具

报纸
dqhl1990 发表于 2015-5-15 15:33:28 |只看作者 |坛友微信交流群
jgchen1966 发表于 2015-5-15 11:52
关键要先确定,NA 为什么成为missing data 了!!然后R 中学习相应的NA处理的统计包!有很多。。。
如公司 ...
恩,情况是这样的,数据集是我从大量病人的病情记录中提取的有关病人的信息,可想而知,每位病人所记录的信息是不相同的(比如某个病人记录中说该病人有高血压,而另外的一个病人的记录中说该病人没有高血压,第三个病人的记录中没有关于高血压的记录,那么,第三个病人这个case在高血压这个feature上就是NA了)像这样的情况非常多,很有可能某个病人的一个信息在其他所有病人的记录中都没有提到过。这也就造成了我数据集中大量的Missing Value了。我刚刚开始学习数据挖掘,很多东西都还不会,面对这里的大量Missing Value就犯了难,所以想问问,在random forest 算法中对于大量Missing value的处理方法是什么了

使用道具

地板
lawliet0719 发表于 2015-5-16 02:28:12 |只看作者 |坛友微信交流群
dqhl1990 发表于 2015-5-15 15:33
恩,情况是这样的,数据集是我从大量病人的病情记录中提取的有关病人的信息,可想而知,每位病人所记录的 ...
首先像jgchen1966说的那样,先研究一下每个feature如果有miss的话miss的原因是什么,能不能统一解决
如果不行的话,我会:
1. 如果是numerical value,用knn之类的machine learning algorithm去填补 (用已知的feature当predictor)
    R package “mi” 有可以impute missing value的function可以试试
2. 如果是categorical value,可能会稍微复杂点,但是也可以试试k mode之类的algorithm去填补

总之最主要的一点是,在impute的时候一定要有道理,不能随便填,有的时候mi填出来的数据不合理,这种时候要自己调整(比如说应该都是正数,但是出来了负数)

使用道具

7
dqhl1990 发表于 2015-5-17 15:12:15 |只看作者 |坛友微信交流群
lawliet0719 发表于 2015-5-16 02:28
首先像jgchen1966说的那样,先研究一下每个feature如果有miss的话miss的原因是什么,能不能统一解决
如果 ...
恩,谢谢你喽,我再学习尝试一下

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-31 15:59