楼主: 卑鄙的我lzw
5339 10

[问答] 对大数据如何用R高效处理 [推广有奖]

  • 0关注
  • 4粉丝

硕士生

24%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
1.0000
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
1326 点
帖子
78
精华
0
在线时间
150 小时
注册时间
2017-7-18
最后登录
2021-5-10

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
我的数据有1000万个观测,每个观测有100个变量,在R中导入csv文件的时候总是死机,有没有什么包能提高效率啊,快点导入数据然后做一些基本的统计分析,比如求和,求平均,t检验,方差分析等。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:提高效率 统计分析 方差分析 高效率 基本的

沙发
飞6666 发表于 2018-10-12 08:25:48 来自手机 |只看作者 |坛友微信交流群
卑鄙的我lzw 发表于 2018-10-12 00:17
我的数据有1000万个观测,每个观测有100个变量,在R中导入csv文件的时候总是死机,有没有什么包能提高效率啊 ...
什么数据这么大?换电脑吧

使用道具

藤椅
Whig 在职认证  发表于 2018-10-12 09:56:34 |只看作者 |坛友微信交流群
data.table啊

使用道具

板凳
cheetahfly 在职认证  发表于 2018-10-12 11:09:56 |只看作者 |坛友微信交流群
大概10G以内的数据量
bb.png
已有 1 人评分论坛币 学术水平 热心指数 收起 理由
admin_kefu + 30 + 2 + 2 热心帮助其他会员

总评分: 论坛币 + 30  学术水平 + 2  热心指数 + 2   查看全部评分

使用道具

报纸
哎呦不错哦~ 学生认证  发表于 2018-10-12 13:45:10 来自手机 |只看作者 |坛友微信交流群
卑鄙的我lzw 发表于 2018-10-12 00:17
我的数据有1000万个观测,每个观测有100个变量,在R中导入csv文件的时候总是死机,有没有什么包能提高效率啊 ...
用fread函数试一下

使用道具

地板
卑鄙的我lzw 发表于 2018-10-12 22:37:41 |只看作者 |坛友微信交流群
飞6666 发表于 2018-10-12 08:25
什么数据这么大?换电脑吧
emmm.....电脑是学校给配的i5-6500 CPU @3.20GHz  3.2GHz,有点破,换不了{:3_60:}

使用道具

7
卑鄙的我lzw 发表于 2018-10-12 22:40:36 |只看作者 |坛友微信交流群
cheetahfly 发表于 2018-10-12 11:09
大概10G以内的数据量
{:2_36:} 小哥哥。。这个图是啥意思啊是不同函数读取数据的速度吗?看不太懂,能不能给解释一下啊QAQ

使用道具

8
卑鄙的我lzw 发表于 2018-10-12 22:41:38 |只看作者 |坛友微信交流群
哎呦不错哦~ 发表于 2018-10-12 13:45
用fread函数试一下
嗯嗯,好滴,我查到fread() 是data.table中的函数,我去认真学习一下(*^▽^*)

使用道具

9
cheetahfly 在职认证  发表于 2018-10-13 01:19:51 |只看作者 |坛友微信交流群
卑鄙的我lzw 发表于 2018-10-12 22:40
小哥哥。。这个图是啥意思啊是不同函数读取数据的速度吗?看不太懂,能不能给解释一下啊QAQ[cry ...
首先考虑data.table,关注sparklyr或SparkR

使用道具

10
ryoeng 在职认证  发表于 2018-10-13 14:52:33 |只看作者 |坛友微信交流群
提示: 作者被禁止或删除 内容自动屏蔽
签名被屏蔽

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-27 12:38