楼主: jmq19950824
2170 9

[程序分享] 【经验分享】如何让R语言处理大数据时效率不降低 [推广有奖]

  • 5关注
  • 5粉丝

讲师

48%

还不是VIP/贵宾

-

威望
0
论坛币
3698 个
通用积分
41.8028
学术水平
4 点
热心指数
6 点
信用等级
2 点
经验
36600 点
帖子
259
精华
0
在线时间
662 小时
注册时间
2017-9-18
最后登录
2023-7-27

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
本人在实际研究过程以及阅读文献总结出来,R(我用的是Rstudio)在运行某些复杂的模型,加之庞大的数据时,往往会出现越运行越卡的现象,提供一个较好的解决方法(实测有效),仅供参考普通直接用read.csv读入的是dataframe,现用data.table以及dplyr两个包对数据进行加载,分两步进行,代码如下:


library(data.table)
data_train_select<-fread('data_train_select.csv')
#应用dplyr一般化表格数据
library(dplyr)
data_train_select<-as.tbl(data_train_select)


实测能显著改善Rstudio运行效率。
另外在程序代码中设置gc()释放内存也是一个比较好的习惯。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:经验分享 语言处理 经验分 大数据 R语言 R语言效率

回帖推荐

shmayor 发表于7楼  查看完整内容

强烈推荐一个包,future,可以让你的程序变多线程。真正的提速,硬盘IO操作不用再等待,直接交给其他线程处理。
已有 2 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
crystal8832 + 10 + 1 精彩帖子
cheetahfly + 30 + 2 + 3 + 2 精彩帖子

总评分: 论坛币 + 40  学术水平 + 2  热心指数 + 4  信用等级 + 2   查看全部评分

from zero to hero
沙发
20115326 学生认证  发表于 2018-10-8 11:09:25 |只看作者 |坛友微信交流群
不错

使用道具

藤椅
lonestone 在职认证  发表于 2018-10-9 06:50:09 来自手机 |只看作者 |坛友微信交流群
jmq19950824 发表于 2018-10-8 11:05
本人在实际研究过程以及阅读文献总结出来,R(我用的是Rstudio)在运行某些复杂的模型,加之庞大的数据时, ...
谢谢分享

使用道具

板凳
jiangbeilu 学生认证  发表于 2018-10-9 22:41:13 |只看作者 |坛友微信交流群
fread是快速读取。其实只是读取的速度变快了,跟效率没太大关系。
已有 1 人评分论坛币 收起 理由
cheetahfly + 10 观点有启发

总评分: 论坛币 + 10   查看全部评分

使用道具

报纸
jmq19950824 发表于 2018-10-10 11:38:07 |只看作者 |坛友微信交流群
jiangbeilu 发表于 2018-10-9 22:41
fread是快速读取。其实只是读取的速度变快了,跟效率没太大关系。
谢谢指正!

使用道具

地板
narcissism0923 发表于 2018-10-10 11:48:40 |只看作者 |坛友微信交流群
tibble

使用道具

7
shmayor 发表于 2018-10-10 22:05:34 来自手机 |只看作者 |坛友微信交流群
强烈推荐一个包,future,可以让你的程序变多线程。真正的提速,硬盘IO操作不用再等待,直接交给其他线程处理。

使用道具

8
jmq19950824 发表于 2018-10-10 22:39:47 |只看作者 |坛友微信交流群
shmayor 发表于 2018-10-10 22:05
强烈推荐一个包,future,可以让你的程序变多线程。真正的提速,硬盘IO操作不用再等待,直接交给其他线程处 ...
好的,等会试下,多谢!

使用道具

9
哎呦不错哦~ 学生认证  发表于 2018-10-10 23:45:54 来自手机 |只看作者 |坛友微信交流群
shmayor 发表于 2018-10-10 22:05
强烈推荐一个包,future,可以让你的程序变多线程。真正的提速,硬盘IO操作不用再等待,直接交给其他线程处 ...
谢谢分享

使用道具

10
卑鄙的我lzw 发表于 2018-10-11 08:43:44 |只看作者 |坛友微信交流群
shmayor 发表于 2018-10-10 22:05
强烈推荐一个包,future,可以让你的程序变多线程。真正的提速,硬盘IO操作不用再等待,直接交给其他线程处 ...
您好,请问一下,我的数据集有1000万个观测,100个变量,在用csv导入R的时候经常死机,这个包能解决这种情况吗,还有实现一些简单的变量计算

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-11 05:39