向量化处理数据（避免循环），purr包遍历求助

6关注
1粉丝

博士生

20%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 950 个
通用积分: 88.5266
学术水平: 3 点
热心指数: 3 点
信用等级: 1 点
经验: 128364 点
帖子: 161
精华: 0
在线时间: 290 小时
注册时间: 2015-10-20
最后登录: 2020-12-11

楼主

zl66983279

发表于 2018-4-6 17:30:51 |AI写论文

50论坛币

如题，近期再处理一批数据，数据量很大。循环太慢了，想用purrr包中进行处理
案例：

data <- data.table(dt=rep(seq.Date(as.Date('2018-01-01'),as.Date('2018-01-07'),1),5),x1=rep(letters[1:7],5),x2=rep(letters[2:8],5),y1=rep(2:8,5),y2=rep(3:9))

复制代码

其中：x为维度，y为指标。
要求分别计算每一个维度，求每个指标平均值，最大值。在计算某一个维度时，需要按照这个维度和dt进行分组，所有指标进行求和。
输出格式为维度名称、维度值、指标名称、指标平均值、指标最小值
结果样例：（样例并不是上面的案例的结果，只是示意）

result <- data.table(dim_name = rep(c("x1","x2"),5),dim_value=letters[1:10],index_name=rep(c("y1","y2"),5),mean=1:10,max=5:14)

复制代码

说明：维度和指标非常多，需要进行遍历，最终要按照数据框输出，维度字段和指标字段通过名字是可以识别的（维度都以x开头，指标都以y开头）
不能有循环，我自己的想法是purrr的map，但是写的不好求大师帮忙！！！
另外，有能力的大神可以帮忙想一下任意两个维度的遍历。

最佳答案

cheetahfly 查看完整内容

之前我想岔了，这样的应用不需要用到map()这样的复杂工具，用lapply()完全可以胜任。麻烦你反馈一下代码执行一次计算需要多长时间？

分享0 收藏2 回帖

关键词：处理数据向量化 PUR Data

相关帖子

沙发

cheetahfly

发表于 2018-4-6 17:30:52

之前我想岔了，这样的应用不需要用到map()这样的复杂工具，用lapply()完全可以胜任。

library(tidyverse)
dim_names <- c("x1", "x2") # 数据维度的名称
idx_names <- c("y1", "y2") # 数据指标的名称
fun_names <- c("mean", "max") # 要应用的函数的名称
# dim_names的循环，用lapply来实现
# idx_nemas的循环，用summarise_at实现
lapply(dim_names, function(x) {
data %>%
group_by(get(x)) %>%
summarise_at(vars(idx_names),
sapply(fun_names, get)) %>%
set_names(c("dim_value", colnames(.)[-1])) %>%
mutate(dim_name = x)
}) %>%
bind_rows() %>%
gather(idx_name_fun, value, c(-1, -ncol(.))) %>%
separate(idx_name_fun, c("idx_name", "fun")) %>%
select(dim_name, dim_value, everything()) %>%
spread(fun, value) %>%
distinct()

复制代码

麻烦你反馈一下代码执行一次计算需要多长时间？

藤椅

zl66983279

发表于 2018-4-8 07:38:09 来自手机

顶.......

板凳

zl66983279

发表于 2018-4-8 15:48:36

没有数据处理的大神吗

报纸

cheetahfly

发表于 2018-4-9 14:40:59

我个人不觉得把所有维度的问题都用map统一解决是个好主意，因为这会增加内存的压力，不过技术上是可以实现的：

library(tidyverse)
data %>%
gather(dim_name, dim_value, 2:3) %>%
group_by(dim_name) %>%
nest() %>%
mutate(result = map(data, .f = function(x) {x %>%
group_by(dim_value) %>%
select(-dt) %>%
summarise_all(c(mean, max)) %>%
gather(type, value, -1) %>%
separate(type, into = c("index_name", "cal")) %>%
spread(cal, value) %>%
set_names(c(names(.)[1:2], "mean", "max"))})) %>%
select(-data) %>%
unnest(result)

复制代码

注：你需要自己用data.table的语法去优化，但不可能彻底优化（我猜），因为核心的nest(),unnest(),map()等都是tibble体系的。其次，运行会出现警告信息“Expected 2 pieces. Additional pieces discarded”，这是在拆分名字的时候发生的，不影响结果。

地板

zl66983279

发表于 2018-4-9 14:55:36

cheetahfly 发表于 2018-4-9 14:40
我个人不觉得把所有维度的问题都用map统一解决是个好主意，因为这会增加内存的压力，不过技术上是可以实现的 ...

那有什么更好的办法吗，维度遍历的

7楼

cheetahfly

发表于 2018-4-9 15:22:06

zl66983279 发表于 2018-4-9 14:55
那有什么更好的办法吗，维度遍历的

如果是一次性的工作，循环一次也不会有太大问题，如果是重复性的工作，你自己测试一些对时间和内存的压力到底哪种方法大。

8楼

zl66983279

发表于 2018-4-9 15:27:13

cheetahfly 发表于 2018-4-9 14:40
我个人不觉得把所有维度的问题都用map统一解决是个好主意，因为这会增加内存的压力，不过技术上是可以实现的 ...

试了一下您的方案，第一步gather就跑不动了。

我自己写了一个

list_order_data <- map(select_at(data,vars(dim_loc)),
function (x){
map(select_at(data,vars(index_loc)),function(y){
data.table(dt =dt_data,dim_subject_name=x,index_value=y)%>% group_by(dt,dim_subject_name) %>% summarise(index_value=sum(index_value)) %>%
ungroup() %>% group_by(dim_subject_name) %>%summarise(
value=last(index_value),
mean=mean(index_value),
min = min(index_value)
)
}
)
})

复制代码

其中dt_data是日期数据，dim_loc是维度的列数，index是指标的列数。我这种等于拆到日期、一个指标和一个维度计算，计算速度还是可以的，但有个问题，返回的是list，维度名称和指标名称变成了list的名字，如何能把拆分的list不用循环的情况下合并成data.table，并增加两列，对应是维度和指标名称。

9楼

zl66983279

发表于 2018-4-9 15:32:37

cheetahfly 发表于 2018-4-9 15:22
如果是一次性的工作，循环一次也不会有太大问题，如果是重复性的工作，你自己测试一些对时间和内存的压力 ...

需要做成常规的，我自己写的那个速度要比循环快上不少。另外大神能不能帮忙看看这个问题
https://bbs.pinggu.org/thread-6300437-1-1.html

10楼

cheetahfly

发表于 2018-4-9 16:46:06

zl66983279 发表于 2018-4-9 15:27
试了一下您的方案，第一步gather就跑不动了。

我自己写了一个其中dt_data是日期数据，dim_loc是维度的 ...

把list变成data.frame(data.table)难度应该相比小很多啊

[问答] 向量化处理数据（避免循环），purr包遍历求助 [推广有奖]

最佳答案

相关帖子

浏览过的帖子

浏览过的版块

本版微信群