2621 10

[问答] R语言并行计算 [推广有奖]

  • 8关注
  • 1粉丝

博士生

78%

还不是VIP/贵宾

-

威望
0
论坛币
436 个
通用积分
0.0602
学术水平
5 点
热心指数
5 点
信用等级
0 点
经验
4549 点
帖子
164
精华
0
在线时间
407 小时
注册时间
2015-11-3
最后登录
2020-2-8

楼主
露露的家园2012 发表于 2018-12-3 11:43:01 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
最近使用foreach以及doParallel这个包进行并行计算。使用GBM包中gbm函数进行GBDT算法。想用此算法实现GBDT算法的预测,虽然GBDT算法是递归的算法,但是我在进行计算时,是对决策树的数目进行每台机器的树的数量的分配。我的疑问是GBM函数是否可以向randomforest算法一样使用:
model<-foreach(ntree=rep(,n.cores),.combine=,.packages="randomForest")%dopar%randomForest(x,y,ntree)
这样的形式进行计算,我自己拿数据进行验证时,发现在使用GBM算法进行计算时,ntree不进行每天机器上的均匀分配,即不使用rep函数,直接用数值表示,比如ntree=1000,这样进行计算时,模型的运行内存不能平均分配,大都在一台机器上运行;如果使用rep函数,比如ntree=4000颗树,我将其设置为4台服务器上分别1000棵树(rep(1000,4)),这样设置模型运行不会出错,运行速率会加快一倍左右,但是进行回归预测时,认为该模型不是gbm的对象,无法进行预测?
这个该怎么解,有没有可以在gbm模型上使用并行算法的计算?谢谢!请各位见多识广的朋友,多多提想法,我会一一去验证,谢谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:算法实现 并行计算 决策树 法实现

回帖推荐

jameschin007 发表于6楼  查看完整内容

rf 用的bagging 方法,所以可以很容易做并行计算。 gbm 不是。

jgchen1966 发表于8楼  查看完整内容

有如此好的硬件条件,该学用 H2O !! 其中,就有很好用的分布式并行计算 GBM ,randomForest ,deeplearning 等主要机器学习模型。 可处理上亿观察数。。

沙发
啊啊啊啊啊吖 发表于 2018-12-3 11:48:36
帮你顶一下帖

藤椅
露露的家园2012 发表于 2018-12-3 12:43:59
啊啊啊啊啊吖 发表于 2018-12-3 11:48
帮你顶一下帖
谢谢啊

板凳
Whig 在职认证  发表于 2018-12-3 14:06:59
没看明白你咋搞的,要想实现部分并行,用XGBoost吧,我觉得你现在的处理有些问题
已有 2 人评分经验 论坛币 收起 理由
cheetahfly + 10 热心帮助其他会员
刘彦楼 + 100 热心帮助其他会员

总评分: 经验 + 100  论坛币 + 10   查看全部评分

报纸
jameschin007 发表于 2018-12-3 16:53:46
露露的家园2012 发表于 2018-12-3 12:43
谢谢啊
xgboost 吧。  完美支持并行计算。
已有 1 人评分论坛币 收起 理由
cheetahfly + 10 热心帮助其他会员

总评分: 论坛币 + 10   查看全部评分

地板
jameschin007 发表于 2018-12-3 16:55:37
rf 用的bagging 方法,所以可以很容易做并行计算。
gbm 不是。

7
jameschin007 发表于 2018-12-3 16:55:53
Whig 发表于 2018-12-3 14:06
没看明白你咋搞的,要想实现部分并行,用XGBoost吧,我觉得你现在的处理有些问题
所见略同。
已有 1 人评分经验 收起 理由
刘彦楼 + 100 精彩帖子

总评分: 经验 + 100   查看全部评分

8
jgchen1966 发表于 2018-12-3 17:42:29
有如此好的硬件条件,该学用 H2O !!  其中,就有很好用的分布式并行计算 GBM ,randomForest  ,deeplearning 等主要机器学习模型。 可处理上亿观察数。。   
已有 2 人评分经验 论坛币 收起 理由
cheetahfly + 10 热心帮助其他会员
刘彦楼 + 100 精彩帖子

总评分: 经验 + 100  论坛币 + 10   查看全部评分

9
露露的家园2012 发表于 2018-12-4 09:12:12
jameschin007 发表于 2018-12-3 16:55
rf 用的bagging 方法,所以可以很容易做并行计算。
gbm 不是。
昨天查找资料,的确不适合做GBM
已有 1 人评分论坛币 收起 理由
jiangbeilu + 5 鼓励积极发帖讨论

总评分: 论坛币 + 5   查看全部评分

10
露露的家园2012 发表于 2018-12-4 09:16:56
jgchen1966 发表于 2018-12-3 17:42
有如此好的硬件条件,该学用 H2O !!  其中,就有很好用的分布式并行计算 GBM ,randomForest  ,deeplearn ...
我不太了解H2O,你指的是
https://www.h2o.ai/
这个官网,还是R中h2o这个包

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-21 07:11