楼主: jmq19950824
3657 14

[问答] 如何提高R语言机器学习的计算效率? [推广有奖]

  • 5关注
  • 5粉丝

已卖:226份资源

讲师

48%

还不是VIP/贵宾

-

威望
0
论坛币
3702 个
通用积分
41.9228
学术水平
4 点
热心指数
6 点
信用等级
2 点
经验
36600 点
帖子
259
精华
0
在线时间
662 小时
注册时间
2017-9-18
最后登录
2025-9-1

楼主
jmq19950824 发表于 2018-9-30 08:28:45 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
现在的数据集大约20000个样本,200个特征(20000x200的data_frame),R里面有哪些包是针对与大数据集机器学习进行改进的?望大神告知,非常感谢!
由于之后网格搜索优化以及交叉验证,所以计算量还是很大的。。。就我所知的有dplyr以及data.table,加上并行处理的方法,我想知道还有没有漏网之鱼?宗旨当然是越快越好。。。(前提是数据能够被机器学习相关包处理)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:如何提高 机器学习 R语言 学习的 Frame

回帖推荐

爱思考大帝 发表于11楼  查看完整内容

楼上的各位说的很全了,点赞 在此从IT层面补充下,要求“速度快”是个没有边际的需求,任何的框架运行都依赖于大内存和多核,简单粗暴的做法是升级机器的内存和CPU,如果有服务器就最好;或者有千兆打底的网络环境(低于千兆就算了,网络lag造成的延迟还不如单机计算),也可以尝试分布式计算框架

narcissism0923 发表于4楼  查看完整内容

推荐两个很好的机器学习平台:caret和mlr,其中几乎包含了当今所有主流的机器学习方法; 此外,就是以神经网络为主的包,主要是h2o和keras两大家,都是很好的平台。

cheetahfly 发表于2楼  查看完整内容

h2o, tensorflow, keras
from zero to hero

沙发
cheetahfly 在职认证  发表于 2018-9-30 08:41:01 来自手机
jmq19950824 发表于 2018-9-30 08:28
现在的数据集大约20000个样本,200个特征(20000x200的data_frame),R里面有哪些包是针对与大数据集机器学 ...
h2o, tensorflow, keras
已有 1 人评分经验 收起 理由
刘彦楼 + 100 精彩帖子

总评分: 经验 + 100   查看全部评分

藤椅
jmq19950824 发表于 2018-9-30 09:57:09
cheetahfly 发表于 2018-9-30 08:41
h2o, tensorflow, keras
多谢!尝试一下!

板凳
narcissism0923 发表于 2018-9-30 12:18:36
推荐两个很好的机器学习平台:caret和mlr,其中几乎包含了当今所有主流的机器学习方法;
此外,就是以神经网络为主的包,主要是h2o和keras两大家,都是很好的平台。

报纸
jmq19950824 发表于 2018-9-30 12:24:44
narcissism0923 发表于 2018-9-30 12:18
推荐两个很好的机器学习平台:caret和mlr,其中几乎包含了当今所有主流的机器学习方法;
此外,就是以神经 ...
多谢!我基本是用的caret进行机器学习,然后用doParallel并行加速,主要还是想再快一点。。。

地板
narcissism0923 发表于 2018-9-30 13:26:58
jmq19950824 发表于 2018-9-30 12:24
多谢!我基本是用的caret进行机器学习,然后用doParallel并行加速,主要还是想再快一点。。。
xgboost,lightgbm(这个速度确实很快,公布时曾经很惊艳!但似乎停止开发了……)
机器学习的算法在速度上差异很大,甚至一个算法的某个参数微调一下,速度就差不少,但结果却差不多。
所以经常需要花费很多时间调参,因为要面对的数据集千差万别。
我的经验是对于量稍大的数据集,先抽样个小子集,试用几个候选最佳方法后,再拿原始数据集跑跑……要不有时候动辄跑一次交叉验证就得十几分钟……

7
jmq19950824 发表于 2018-9-30 13:47:23
narcissism0923 发表于 2018-9-30 13:26
xgboost,lightgbm(这个速度确实很快,公布时曾经很惊艳!但似乎停止开发了……)
机器学习的算法在速度上 ...
哈哈是的,像我一般用集成算法,网格搜索+重复10折交叉验证,再配上一个大的数据集,运行时间相当美滋滋。。。。

8
哎呦不错哦~ 学生认证  发表于 2018-10-1 15:38:10 来自手机
jmq19950824 发表于 2018-9-30 12:24
多谢!我基本是用的caret进行机器学习,然后用doParallel并行加速,主要还是想再快一点。。。
doParallel我设置了cores,再运行模型,感觉也没有加快速度啊。我感觉其他的几个新建立的核没有再跑这是为什么?

9
jmq19950824 发表于 2018-10-1 16:21:23 来自手机
哎呦不错哦~ 发表于 2018-10-1 15:38
doParallel我设置了cores,再运行模型,感觉也没有加快速度啊。我感觉其他的几个新建立的核没有再跑这是为 ...
再检查一下代码,我跑的时候进程里有4个r(电脑四核处理器),cpu使用率是100%

10
jmq19950824 发表于 2018-10-1 16:26:20
哎呦不错哦~ 发表于 2018-10-1 15:38
doParallel我设置了cores,再运行模型,感觉也没有加快速度啊。我感觉其他的几个新建立的核没有再跑这是为 ...
再检查一下代码,我设置以后进程里都是4个R,然后CPU使用率100%

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-25 17:47