楼主: jmq19950824
2604 9

[程序分享] 【经验分享】如何让R语言处理大数据时效率不降低 [推广有奖]

  • 5关注
  • 5粉丝

已卖:226份资源

讲师

48%

还不是VIP/贵宾

-

威望
0
论坛币
3702 个
通用积分
41.9228
学术水平
4 点
热心指数
6 点
信用等级
2 点
经验
36600 点
帖子
259
精华
0
在线时间
662 小时
注册时间
2017-9-18
最后登录
2025-9-1

楼主
jmq19950824 发表于 2018-10-8 11:05:15 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
本人在实际研究过程以及阅读文献总结出来,R(我用的是Rstudio)在运行某些复杂的模型,加之庞大的数据时,往往会出现越运行越卡的现象,提供一个较好的解决方法(实测有效),仅供参考普通直接用read.csv读入的是dataframe,现用data.table以及dplyr两个包对数据进行加载,分两步进行,代码如下:


library(data.table)
data_train_select<-fread('data_train_select.csv')
#应用dplyr一般化表格数据
library(dplyr)
data_train_select<-as.tbl(data_train_select)


实测能显著改善Rstudio运行效率。
另外在程序代码中设置gc()释放内存也是一个比较好的习惯。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:经验分享 语言处理 经验分 大数据 R语言 R语言效率

回帖推荐

shmayor 发表于7楼  查看完整内容

强烈推荐一个包,future,可以让你的程序变多线程。真正的提速,硬盘IO操作不用再等待,直接交给其他线程处理。
已有 2 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
crystal8832 + 10 + 1 精彩帖子
cheetahfly + 30 + 2 + 3 + 2 精彩帖子

总评分: 论坛币 + 40  学术水平 + 2  热心指数 + 4  信用等级 + 2   查看全部评分

from zero to hero

沙发
20115326 学生认证  发表于 2018-10-8 11:09:25
不错

藤椅
lonestone 在职认证  发表于 2018-10-9 06:50:09 来自手机
jmq19950824 发表于 2018-10-8 11:05
本人在实际研究过程以及阅读文献总结出来,R(我用的是Rstudio)在运行某些复杂的模型,加之庞大的数据时, ...
谢谢分享

板凳
jiangbeilu 学生认证  发表于 2018-10-9 22:41:13
fread是快速读取。其实只是读取的速度变快了,跟效率没太大关系。
已有 1 人评分论坛币 收起 理由
cheetahfly + 10 观点有启发

总评分: 论坛币 + 10   查看全部评分

报纸
jmq19950824 发表于 2018-10-10 11:38:07
jiangbeilu 发表于 2018-10-9 22:41
fread是快速读取。其实只是读取的速度变快了,跟效率没太大关系。
谢谢指正!

地板
narcissism0923 发表于 2018-10-10 11:48:40
tibble

7
shmayor 发表于 2018-10-10 22:05:34 来自手机
强烈推荐一个包,future,可以让你的程序变多线程。真正的提速,硬盘IO操作不用再等待,直接交给其他线程处理。

8
jmq19950824 发表于 2018-10-10 22:39:47
shmayor 发表于 2018-10-10 22:05
强烈推荐一个包,future,可以让你的程序变多线程。真正的提速,硬盘IO操作不用再等待,直接交给其他线程处 ...
好的,等会试下,多谢!

9
哎呦不错哦~ 学生认证  发表于 2018-10-10 23:45:54 来自手机
shmayor 发表于 2018-10-10 22:05
强烈推荐一个包,future,可以让你的程序变多线程。真正的提速,硬盘IO操作不用再等待,直接交给其他线程处 ...
谢谢分享

10
卑鄙的我lzw 发表于 2018-10-11 08:43:44
shmayor 发表于 2018-10-10 22:05
强烈推荐一个包,future,可以让你的程序变多线程。真正的提速,硬盘IO操作不用再等待,直接交给其他线程处 ...
您好,请问一下,我的数据集有1000万个观测,100个变量,在用csv导入R的时候经常死机,这个包能解决这种情况吗,还有实现一些简单的变量计算

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-25 23:59