楼主: Imasasor
2468 8

[程序分享] R语言中randomForest与h2o.randomForest的区别 [推广有奖]

  • 1关注
  • 64粉丝

VIP

学科带头人

34%

还不是VIP/贵宾

-

TA的文库  其他...

超哥喜欢的文章

威望
1
论坛币
47033 个
通用积分
3.1376
学术水平
238 点
热心指数
246 点
信用等级
231 点
经验
36380 点
帖子
866
精华
3
在线时间
2234 小时
注册时间
2012-7-4
最后登录
2023-9-20

初级学术勋章 初级热心勋章 初级信用勋章 中级热心勋章 中级学术勋章

588论坛币
各位好,
遇到一个问题
同样一个数据,同样的参数,用randomForest包中的函数与h2o.randomForest预测结果相差非常大。
我的问题是一个分类问题,预测目标为TARGET,最后用AUC评判预测结果,在test数据上测试,
randomForest模型的AUC为0.60,而h2o.randomForest达到了0.79,求教各位什么原因。

我把代码和数据都附在附件中。



test codes.rar (736 Bytes) 本附件包括:
  • test codes.R

example data.rar (356.63 KB) 本附件包括:
  • example data.csv


关键词:randomForest random Forest Rest rand
欢迎加入亚太地区第一R&Python数据挖掘群: 251548215;
沙发
Imasasor 发表于 2017-5-20 19:33:02 |只看作者 |坛友微信交流群
谁能帮我回答,加50元现金报酬。

使用道具

藤椅
starterran 发表于 2017-5-20 22:26:47 |只看作者 |坛友微信交流群
在运用h2o.randomForest时,下面这几个变量被剔除了:
delta_imp_reemb_var17_1y3, imp_reemb_var17_ult1, num_reemb_var17_ult1, delta_num_reemb_var17_1y3
因为这几个变量是“数值不变的变量”,例如,delta_imp_reemb_var17_1y3取值全为0.
还有,你的数据不干净,有的用科学记数法表示,有的又不是,还有“-1”,"-1"是缺失值吗?

使用道具

板凳
Imasasor 发表于 2017-5-20 23:21:15 |只看作者 |坛友微信交流群
starterran 发表于 2017-5-20 22:26
在运用h2o.randomForest时,下面这几个变量被剔除了:
delta_imp_reemb_var17_1y3, imp_reemb_var17_ult1, ...
可是,去掉那些变量后,randomForest和h2o.randomForest还是差别很大,不是变量的问题吧

使用道具

报纸
jgchen1966 发表于 2017-5-22 13:20:34 |只看作者 |坛友微信交流群
h2o.randomForest  在参数设计上,比randomForest 更精细更多,因此,更有可能 因模型参数设定”碰巧“ 更“到位”,会获到更好模型,当然也更可能”过拟“。但是,h2o.randomForest 中这大量的参数与模型绩效的关系,至今未见系统的研究。。针对专门手上数据,只有不断试误地摸索了!!

使用道具

地板
jgchen1966 发表于 2017-5-22 13:22:55 |只看作者 |坛友微信交流群
jgchen1966 发表于 2017-5-22 13:20
h2o.randomForest  在参数设计上,比randomForest 更精细更多,因此,更有可能 因模型参数设定”碰巧“ 更“ ...
同时,虽作者未明说,以本人经验,两者的模型运行机制可能存重大差异!!

使用道具

7
Imasasor 发表于 2017-5-23 14:07:41 |只看作者 |坛友微信交流群
jgchen1966 发表于 2017-5-22 13:22
同时,虽作者未明说,以本人经验,两者的模型运行机制可能存重大差异!!
有点道理,兄弟有尝试我附件中的示例吗?
未调任何参数,结果差别如此大,感觉都不是同一个算法

使用道具

8
jgchen1966 发表于 2017-5-23 15:33:46 |只看作者 |坛友微信交流群
Imasasor 发表于 2017-5-23 14:07
有点道理,兄弟有尝试我附件中的示例吗?
未调任何参数,结果差别如此大,感觉都不是同一个算法
不好意思,已下载了数据,但暂时不得闲!! 不过,兄弟,能否再提供点数据背景资料??

使用道具

9
eagleeagle_7621 发表于 2017-6-22 18:49:01 |只看作者 |坛友微信交流群
两个原因:
1)算法的author不同,其实现算法逻辑的思路和方式不同。
2)randomForest本来就是很多sample过程,包括对样本和参数的,结果容易出现差异。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-25 18:21