楼主: Imasasor
3100 8

[程序分享] R语言中randomForest与h2o.randomForest的区别 [推广有奖]

  • 1关注
  • 64粉丝

VIP

已卖:215份资源

学科带头人

33%

还不是VIP/贵宾

-

TA的文库  其他...

超哥喜欢的文章

威望
1
论坛币
47033 个
通用积分
3.1376
学术水平
238 点
热心指数
246 点
信用等级
231 点
经验
37132 点
帖子
849
精华
3
在线时间
2235 小时
注册时间
2012-7-4
最后登录
2024-10-10

初级学术勋章 初级热心勋章 初级信用勋章 中级热心勋章 中级学术勋章

楼主
Imasasor 发表于 2017-5-20 17:00:39 |AI写论文
588论坛币
各位好,
遇到一个问题
同样一个数据,同样的参数,用randomForest包中的函数与h2o.randomForest预测结果相差非常大。
我的问题是一个分类问题,预测目标为TARGET,最后用AUC评判预测结果,在test数据上测试,
randomForest模型的AUC为0.60,而h2o.randomForest达到了0.79,求教各位什么原因。

我把代码和数据都附在附件中。



test codes.rar (736 Bytes) 本附件包括:
  • test codes.R

example data.rar (356.63 KB) 本附件包括:
  • example data.csv


关键词:randomForest random Forest Rest rand
欢迎加入亚太地区第一R&Python数据挖掘群: 251548215;

沙发
Imasasor 发表于 2017-5-20 19:33:02
谁能帮我回答,加50元现金报酬。

藤椅
starterran 发表于 2017-5-20 22:26:47
在运用h2o.randomForest时,下面这几个变量被剔除了:
delta_imp_reemb_var17_1y3, imp_reemb_var17_ult1, num_reemb_var17_ult1, delta_num_reemb_var17_1y3
因为这几个变量是“数值不变的变量”,例如,delta_imp_reemb_var17_1y3取值全为0.
还有,你的数据不干净,有的用科学记数法表示,有的又不是,还有“-1”,"-1"是缺失值吗?

板凳
Imasasor 发表于 2017-5-20 23:21:15
starterran 发表于 2017-5-20 22:26
在运用h2o.randomForest时,下面这几个变量被剔除了:
delta_imp_reemb_var17_1y3, imp_reemb_var17_ult1, ...
可是,去掉那些变量后,randomForest和h2o.randomForest还是差别很大,不是变量的问题吧

报纸
jgchen1966 发表于 2017-5-22 13:20:34
h2o.randomForest  在参数设计上,比randomForest 更精细更多,因此,更有可能 因模型参数设定”碰巧“ 更“到位”,会获到更好模型,当然也更可能”过拟“。但是,h2o.randomForest 中这大量的参数与模型绩效的关系,至今未见系统的研究。。针对专门手上数据,只有不断试误地摸索了!!

地板
jgchen1966 发表于 2017-5-22 13:22:55
jgchen1966 发表于 2017-5-22 13:20
h2o.randomForest  在参数设计上,比randomForest 更精细更多,因此,更有可能 因模型参数设定”碰巧“ 更“ ...
同时,虽作者未明说,以本人经验,两者的模型运行机制可能存重大差异!!

7
Imasasor 发表于 2017-5-23 14:07:41
jgchen1966 发表于 2017-5-22 13:22
同时,虽作者未明说,以本人经验,两者的模型运行机制可能存重大差异!!
有点道理,兄弟有尝试我附件中的示例吗?
未调任何参数,结果差别如此大,感觉都不是同一个算法

8
jgchen1966 发表于 2017-5-23 15:33:46
Imasasor 发表于 2017-5-23 14:07
有点道理,兄弟有尝试我附件中的示例吗?
未调任何参数,结果差别如此大,感觉都不是同一个算法
不好意思,已下载了数据,但暂时不得闲!! 不过,兄弟,能否再提供点数据背景资料??

9
eagleeagle_7621 发表于 2017-6-22 18:49:01
两个原因:
1)算法的author不同,其实现算法逻辑的思路和方式不同。
2)randomForest本来就是很多sample过程,包括对样本和参数的,结果容易出现差异。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-2 11:10