楼主: hubifeng?
9913 30

[学习分享] 如何处理大型数据集? [推广有奖]

31
ZhandaYang 发表于 2015-9-8 12:27:27
读取csv文件效率对比

### size of csv file: 396 MB (1,000,000 rows * 30 columns) ###
setwd("~/desktop/")

system.time(read.csv('text.csv', header = T, sep = ','))
#   user  system elapsed
# 59.913   0.828  60.797

library(data.table)
system.time(fread('text.csv', header = T, sep = ','))
#   user  system elapsed
#  2.468   0.169   2.650

library(bigmemory)
system.time(read.big.matrix('text.csv', header = T))
#   user  system elapsed
#  29.328  0.602  30.268

library(ff)
system.time(read.csv.ffdf(file = 'text.csv', header = T))
#   user  system elapsed
#  53.658  0.972  55.175

library(sqldf)
system.time(x <- read.csv.sql('text.csv'))
#   user  system elapsed
# 30.989  2.017   33.715

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-30 13:04