人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › R语言论坛 › R并行效率的问题

发帖

楼主: boss0577

2903 9

[问答] R并行效率的问题 [推广有奖]

0关注
0粉丝

高中生

30%

还不是VIP/贵宾

威望: 0 级
论坛币: 0 个
通用积分: 0
学术水平: 5 点
热心指数: 0 点
信用等级: 0 点
经验: 68 点
帖子: 8
精华: 0
在线时间: 43 小时
注册时间: 2013-4-11
最后登录: 2023-1-29

楼主

boss0577 发表于 2017-2-22 12:34:29 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

temp <- matrix(rnorm(1000000), ncol = 100)
##单核运行
system.time(foreach(x = 1:10000, .combine = 'c') %do% {sum(temp[x,])})
library(foreach)
library(doParallel)
library(iterators)
cl <- makeCluster(3)
registerDoParallel(cl)
##多核运行
system.time(foreach(x = 1:10000, .combine = 'c') %dopar% {sum(temp[x,])})
##多核分块
system.time(foreach(x = iapply(temp,1), .combine = 'c') %dopar% {sum(x)})
stopCluster(cl)

复制代码

提供三种运行模式，看上去提供了并行运算和分块处理机制，应该加快运行效率。但实际问题是三种的运行效率是依次下降的。
请教这里影响并行运算的主要因素是什么，该如何解决？
ps:第一种单核运行和多核运行个人觉得有可能还是由于资源分配耗用的时间，但是第三种模式至少在第二种的基础上减少了变量复制的时间，运行效率下降实在有些不能理解。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：Temp TEM

相关帖子

沙发

飞天玄舞6

发表于 2017-2-22 13:12:59

你再加大数据量试试

藤椅

boss0577 发表于 2017-2-22 14:00:02

飞天玄舞6 发表于 2017-2-22 13:12
你再加大数据量试试

> temp <- matrix(rnorm(10000000), ncol = 100)
> ##单核运行
> system.time(foreach(x = 1:100000, .combine = 'c') %do% {sum(temp[x,])})
用户系统流逝
44.27 0.00 44.82
> library(foreach)
> library(doParallel)
> library(iterators)
> cl <- makeCluster(3)
> registerDoParallel(cl)
> ##多核运行
> system.time(foreach(x = 1:100000, .combine = 'c') %dopar% {sum(temp[x,])})
用户系统流逝
59.00 6.38 67.10
> ##多核分块
> system.time(foreach(x = iapply(temp,1), .combine = 'c') %dopar% {sum(x)})
用户系统流逝
82.97 5.53 89.60
> stopCluster(cl)

复制代码

提高一个量级，差距更大了。我觉得问题不在这边。

板凳

cheetahfly

发表于 2017-2-22 18:32:21

《Parallel R》里面有系统的介绍，包括原理，可能的瓶颈，如和寻找瓶颈并可视化等等。
https://bbs.pinggu.org/thread-4134315-1-1.html

已有 2 人评分	经验	热心指数	收起理由
李会超	+ 40		精彩帖子
ryoeng		+ 1	我很赞同，得学习

总评分: 经验 + 40 热心指数 + 1 查看全部评分

加关注串个门加好友发消息 677 关注 49粉丝禁止访问先生 ryoeng 当前离线阅读权限 0 威望 0 级论坛币 11663 个通用积分 1661.4399 学术水平 202 点热心指数 266 点信用等级 117 点经验 146644 点帖子 1324 精华 0 在线时间 1204 小时注册时间 2014-12-23 最后登录 2024-4-18 雷达卡	报纸 ryoeng 发表于 2017-2-22 21:06:36 提示: 作者被禁止或删除内容自动屏蔽
	签名被屏蔽
	回复举报

地板

cheetahfly

发表于 2017-2-22 22:16:35

ryoeng 发表于 2017-2-22 21:06
又破费了，2014年就已买了，刚才又购买了重复书本。目前正要啃书：efficientR。

我也经常重复买书，说明只有仔细啃过，才是自己的，只是下载下来，并不是自己的。

7楼

jgchen1966 发表于 2017-2-24 19:02:17

在几个核中并行运行，先要化解任务，各核算完后，要进行结果合并操作。。这会消耗一些资源，象楼主这样的100000次简单的“sum(x)"任务，不值得并行。

8楼

jgchen1966 发表于 2017-2-24 19:06:51

在几个核中并行运行，先要化解任务，各核算完后，要进行结果合并操作。。这会消耗一些资源，象楼主这样的100000次简单的“sum(x)"任务，不值得并行。。只要，forear (.....)%.dopar%{任务}中的”任务“足够大而复杂，其运行的时间远远大于并行日常操作时间，才会提高并行效率，达到，若n个物理核，效率提高达n倍,的理想结果。。

9楼

boss0577 发表于 2017-3-1 18:55:37

jgchen1966 发表于 2017-2-24 19:06
在几个核中并行运行，先要化解任务，各核算完后，要进行结果合并操作。。这会消耗一些资源，象楼主这样的10 ...

嗯。这边当然是举个例子。这边想问的是分解任务中可能涉及到哪几个方面会影响最后的并行效率，以及为什么对大size的变量进行分块以后仍然降低了效率。

10楼

qiu435 发表于 2017-3-3 16:47:48

启动并行运算本身就消耗时间，数据量不是特别大的时候，速度反而变慢，这是正常的

返回列表

发帖

本版微信群

加好友,备注cda
拉您进交流群

京ICP备16021002号-2 京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明

[问答] R并行效率的问题 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

初级热心勋章

中级热心勋章

本版微信群

[问答] R并行效率的问题 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

初级热心勋章

中级热心勋章

本版微信群

扫码加我拉你入群