楼主: lqb1987
7761 16

[问答] 如何高效合并大量的data.frame [推广有奖]

11
nuomin 发表于 2016-10-9 09:36:05
用mySQL

12
jgchen1966 发表于 2016-10-9 14:19:37
1000个,10000行*10列,七秒即完成,可和dplyr::bind_rows !!!!,    计算复杂度:o(n)

13
jgchen1966 发表于 2016-10-9 14:20:55
1000个,10000行*10列的data.frame,七秒即完成,可用dplyr::bind_rows !!!!,    计算复杂度:o(n)  n 为 行。

14
cheetahfly 在职认证  发表于 2016-10-9 17:45:08
jgchen1966 发表于 2016-10-9 14:20
1000个,10000行*10列的data.frame,七秒即完成,可用dplyr::bind_rows !!!!,    计算复杂度:o(n)  n 为 行 ...
当时用过这个方法,由于我的系统还是32位的,所以给出出错信息:
“Error: cannot allocate vector of size 58.6 Mb”

15
jgchen1966 发表于 2016-10-9 20:18:08
cheetahfly 发表于 2016-10-9 17:45
当时用过这个方法,由于我的系统还是32位的,所以给出出错信息:
“Error: cannot allocate vector of s ...
内存不足,如何读入就要考虑读入如此多数据量的目标是何,再来选择虚似或分布读入方式:如bigmemory,h2o,ff等等中一些方法,否则,只能增加内存条。。。扩大至16G,也难以读入3000个10000*10的data.frame!!!!
  

16
jgchen1966 发表于 2016-10-9 21:07:52
data.table 最大问题是:一是会不经意间,改变观察的行序,给后序的数据分析带来“无法观察”的错误。。二是R  中大量ML方法不支持,还得转化为data.frame,这个转为是不可改变(immutable)吗???data.table 本身并不保证,尤其对不想在数据转化上浪费太多时间的人!!

已有 1 人评分经验 论坛币 学术水平 热心指数 收起 理由
我的素质低 + 100 + 20 + 5 + 5 精彩帖子

总评分: 经验 + 100  论坛币 + 20  学术水平 + 5  热心指数 + 5   查看全部评分

17
我的素质低 学生认证  发表于 2016-11-20 22:09:38
jgchen1966 发表于 2016-10-9 21:07
data.table 最大问题是:一是会不经意间,改变观察的行序,给后序的数据分析带来“无法观察”的错误。。二是 ...
同意,在实践data.table过程中,觉得跟其他分析结合好费劲,我现在还是选择data.frame多一点。 不过,data.table的合并功能的确很棒!

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-29 15:26