楼主: hubifeng?
9930 30

[学习分享] 如何处理大型数据集? [推广有奖]

已卖:1075份资源

副教授

68%

还不是VIP/贵宾

-

威望
0
论坛币
10579 个
通用积分
132.3199
学术水平
87 点
热心指数
86 点
信用等级
62 点
经验
486 点
帖子
661
精华
0
在线时间
1064 小时
注册时间
2010-12-7
最后登录
2025-10-28

楼主
hubifeng? 学生认证  发表于 2014-11-9 13:53:12 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
这是在处理Kaggle上的一个数据时采用的解决方法

数据来源及描述:
http://www.kaggle.com/c/avazu-ctr-prediction/data
下载train_rev2数据集,可以看到有1.39G,解压后有8.10G.


运行环境:
windows xp, 1G内存,并且增加了4G的虚拟内存.

数据导入:
library(ff)
library(ffbase)
df <- read.csv.ffdf(file=gzfile('train_rev2.gz'), VERBOSE=TRUE)

    第一次读入1000行,之后每次读入191645行,总共47686351行
csv-read=2883.44sec  ffdf-write=2214.88sec  TOTAL=5098.32sec=84.972min=1.4162hour

总共花了1.4小时导入数据.

数据的预处理部分比较麻烦,ff package比较慢...
这里仅涉及数据的导入,预处理部分将持续更新......

希望大家分享自己处理大型数据的经验或建议,并提供相关数据集让我们一起玩转大数据!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:大型数据 数据集 Prediction Library Windows ffbase 大型数据 kaggle

已有 1 人评分经验 论坛币 收起 理由
李会超 + 60 + 60 支持实战经验分享

总评分: 经验 + 60  论坛币 + 60   查看全部评分

本帖被以下文库推荐

沙发
李会超 发表于 2014-11-9 13:57:28
哎,上次导入三百多万的txt文件,sas秒导进去了,大批量的数据操作R还是有点吃力

藤椅
hubifeng? 学生认证  发表于 2014-11-9 14:01:30
李会超 发表于 2014-11-9 13:57
哎,上次导入三百多万的txt文件,sas秒导进去了,大批量的数据操作R还是有点吃力
这个有四千七百多万,没试过SAS,R也是可以的,有人用过ff Package,但是处理数据起来比较麻烦...

板凳
李会超 发表于 2014-11-9 14:03:22
hubifeng? 发表于 2014-11-9 14:01
这个有四千七百多万,没试过SAS,R也是可以的,有人用过ff Package,但是处理数据起来比较麻烦...
对四千七百万求过均值之类的么,速度如何?在R里面还真没试过这么大的数据计算

报纸
hubifeng? 学生认证  发表于 2014-11-9 14:09:43
李会超 发表于 2014-11-9 14:03
对四千七百万求过均值之类的么,速度如何?在R里面还真没试过这么大的数据计算
这个会比较慢,我只是抽取了一部分进行了预处理。在SAS里处理过最大的数据集有多大?我也想试试ff Package的极限,试过MySQL吗?

地板
花花人 发表于 2014-11-9 14:13:01
看看 了解了解哈

7
李会超 发表于 2014-11-9 14:19:47
hubifeng? 发表于 2014-11-9 14:09
这个会比较慢,我只是抽取了一部分进行了预处理。在SAS里处理过最大的数据集有多大?我也想试试ff Packag ...
理论上SAS是无上限,我在sas里面处理过几百万的,都是秒出结果的,IBM的DB2和微软的SQL server里面对几千万的数据求和这样的简单的统计值也是很快的。

8
oliyiyi 发表于 2014-11-9 20:16:55
楼主的使用还不得其法把,我看过有人在大数据上的评测,R的各项指标都不低于sas的

9
李会超 发表于 2014-11-9 20:26:16
oliyiyi 发表于 2014-11-9 20:16
楼主的使用还不得其法把,我看过有人在大数据上的评测,R的各项指标都不低于sas的
呵呵,欢迎多交流R

10
hubifeng? 学生认证  发表于 2014-11-9 20:53:36
oliyiyi 发表于 2014-11-9 20:16
楼主的使用还不得其法把,我看过有人在大数据上的评测,R的各项指标都不低于sas的
恩 也是刚接触,欢迎分享好的资源!

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-3 23:58