人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › R语言论坛 › R语言中C++、向量化、和data.table的效率比较

发帖

楼主: cheetahfly

2723 3

[学习分享] R语言中C++、向量化、和data.table的效率比较 [推广有奖]

2关注
72粉丝

版主

已卖：1份资源

院士

12%

还不是VIP/贵宾

威望: 0 级
论坛币: 64284 个
通用积分: 1679.3423
学术水平: 489 点
热心指数: 598 点
信用等级: 336 点
经验: 127454 点
帖子: 2099
精华: 1
在线时间: 3997 小时
注册时间: 2010-10-27
最后登录: 2026-2-28

楼主

cheetahfly

发表于 2016-3-23 22:52:43 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

我们经常听到一些人谈论R语言的效率问题，又经常听到另一些人评论说这种比较是建筑在“naive”的R语言编程方法上的。如果R语言发挥到极致（仅限于我的能力范围之内），到底能优化到什么程度，这是我在本文希望讨论的问题。

在此之前，再次感谢Iris2126同学，是他的《【R】提升R代码运算效率的11个实用方法》让我得以展开今天的讨论，现在我还经常看会该篇文章，每每都有些收获。

今天我们延续该文的讨论，但比较的是三种最有效率的方法：C++(Rcpp)、最简向量化、和data.table格式，这三种上面文章中都有提到过，但是都不是最优化的，我根据英文原帖的跟帖高手中一些思路照搬过来了（代码非原创，荣誉归于这两位外国高手）。

1、问题的提出，假设有这么一个data.frame:

df <- data.frame (col1 = runif (12^6, 0, 2),
col2 = rnorm (12^6, 0, 2),
col3 = rpois (12^6, 3),
col4 = rchisq (12^6, 2))

复制代码

然后，判断该数据框(df)的每一行的总和是否大于4，如果该条件满足，则对应的新变量数值为’greater_than_4’，否则赋值为’lesser_than_4’。就是这么个简单的问题。

2、a）Rcpp包加载C++函数：（原帖中的C++代码无法运行，且判断语句不知所云，很可能有错漏，我恶补了Rcpp的知识后稍微改动过，可能是比较低效率的代码，请大神指正）

// myfunc.cpp
#include <Rcpp.h>
using namespace Rcpp;
//[[Rcpp::export]]
CharacterVector myFunc(DataFrame x) {
NumericVector a = x["col1"];
NumericVector b = x["col2"];
NumericVector c = x["col3"];
NumericVector d = x["col4"];
int nrow = a.size();
CharacterVector out(nrow);
for (int i = 0; i < nrow; i++) {
if (a[i] + b[i] + c[i] + d[i] > 4) {
out[i] = "greater_than_4";
} else {
out[i] = "lesser_than_4";
}
}
return out;
}
library(Rcpp)
sourceCpp("myfunc.cpp")

复制代码

b）将向量化做到极致：

myFunR <- function(df) {
c("greater_than_4", "lesser_than_4")[1L + (df[[1]] + df[[2]] + df[[3]] + df[[4]] <= 4)]
}

复制代码

c）用大名鼎鼎的data.table数据结构（返回的是增加了一列的data.table，而非上两种方式中的向量）

myFundt <- function(df) {
setDT(df)
df[, output := "greater_than_4"]
df[(col1 + col2 + col3 + col4) <= 4, output :="lesser_than_4"]
}

复制代码

3、OK，万事俱备，开始测试：

library(microbenchmark)
library(data.table)
dt <- copy(df) # data.table会改变外部环境，所以要单独拷贝一份出来。
microbenchmark(myFunc(df), myFunR(df), myFundt(dt), times = 30)

复制代码

4、结果。在揭晓之前，我们来猜猜谁最快？C++？

结果.PNG

当然，反正都很快就是了，不过，强中自有强中手，想不到极致向量化的方法比C++更快，而data.table又比极致向量化更快。

具体耗时可能因电脑不同而异，我在两台32位的老电脑上测试过，均是相同的快慢顺序。

5、结论——R语言的潜力我们还根本没有挖掘彻底！静下心来，好好学习吧。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏6 回帖

关键词：Table ABLE Data tab R语言语言编程 naive 文章建筑能力

[学习分享] R语言中C++、向量化、和data.table的效率比较 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[学习分享] R语言中C++、向量化、和data.table的效率比较 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群