6653 9

[问答] R语言如何处理百万条数据,迷茫啊! [推广有奖]

  • 0关注
  • 1粉丝

本科生

0%

还不是VIP/贵宾

-

威望
0
论坛币
259 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
499 点
帖子
19
精华
0
在线时间
109 小时
注册时间
2016-3-10
最后登录
2020-11-18

楼主
谁肯惠双鱼8 发表于 2018-8-15 17:10:23 |AI写论文
30论坛币
最近几天在学习R语言,老师给了一些数据,只让我每周发数据分析给他。
从读入这些数据,到简单的程序编写,我现在也学会了一点,但是还是不知道怎么玩转数据,请教各位大神,能不能给一些建议。
拜谢!
如下图,这是用fread函数读入的txt数据。面对这样的数据,我们应该分析什么呢?好迷茫啊。
我先说说,我最近做的分析。
①去除了data中的null等无效数据;
②统计了IDnumber的数目(因为它有不同时间段观看电视),总计128020个;
③统计了不同IDnumber的用户观看电视节目的总时长(duration);
④统计了不同channel的播放总时长;
所以,我到底要对这些数据做什么啊?一般的数据分析都是分析什么啊?
QQ截图20180815165149.jpg

最佳答案

narcissism0923 查看完整内容

R说白了也只是一门工具,能发挥多大的效能,还是要靠人!掌握了再多的技术,也不一定就是高手。 数据挖掘可是一门深似海的综合性学科,单就一个数据集,就可能发掘出很多很有意思甚至匪夷所思的“结果”……而如何去一步步的挖掘呢? 再次推荐《R数据科学》那本书,这是学习R语言最重要的必修课!!! 再者,领域知识也非常重要,若是对数据中每个变量以及变量之间所表达的内容还不够了解,那堆数据也只是一堆没啥价值的数字而已 ...
关键词:不同时间段 数据分析 电视节目 程序编写 不同时间

回帖推荐

narcissism0923 发表于2楼  查看完整内容

R说白了也只是一门工具,能发挥多大的效能,还是要靠人!掌握了再多的技术,也不一定就是高手。 数据挖掘可是一门深似海的综合性学科,单就一个数据集,就可能发掘出很多很有意思甚至匪夷所思的“结果”……而如何去一步步的挖掘呢? 再次推荐《R数据科学》那本书,这是学习R语言最重要的必修课!!! 再者,领域知识也非常重要,若是对数据中每个变量以及变量之间所表达的内容还不够了解,那堆数据也只是一堆没啥价值的数字而已 ...

沙发
narcissism0923 发表于 2018-8-15 17:10:24
R说白了也只是一门工具,能发挥多大的效能,还是要靠人!掌握了再多的技术,也不一定就是高手。
数据挖掘可是一门深似海的综合性学科,单就一个数据集,就可能发掘出很多很有意思甚至匪夷所思的“结果”……而如何去一步步的挖掘呢?
再次推荐《R数据科学》那本书,这是学习R语言最重要的必修课!!!
再者,领域知识也非常重要,若是对数据中每个变量以及变量之间所表达的内容还不够了解,那堆数据也只是一堆没啥价值的数字而已!
已有 2 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
谁肯惠双鱼8 + 1 + 1 + 1 精彩帖子
cheetahfly + 10 热心帮助其他会员

总评分: 论坛币 + 10  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

藤椅
屋檐滴语 发表于 2018-8-16 00:28:37
RSQLite包适合你
已有 2 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
谁肯惠双鱼8 + 1 + 1 + 1 精彩帖子
cheetahfly + 10 热心帮助其他会员

总评分: 论坛币 + 10  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

板凳
谁肯惠双鱼8 发表于 2018-8-16 08:14:35
屋檐滴语 发表于 2018-8-16 00:28
RSQLite包适合你
我先试试,晚上回复你~感谢回答。

报纸
cheetahfly 在职认证  发表于 2018-8-16 08:36:31
R对百万行级的数据表示毫无压力,
至于要对这些数据做什么,这就贯穿了整个DATA SCIENCE的内容,你需要看书。
已有 3 人评分学术水平 热心指数 信用等级 收起 理由
Sunny602678 + 1 + 1 精彩帖子
谁肯惠双鱼8 + 1 + 1 + 1 精彩帖子
narcissism0923 + 3 精彩帖子

总评分: 学术水平 + 2  热心指数 + 5  信用等级 + 1   查看全部评分

地板
谁肯惠双鱼8 发表于 2018-8-16 13:58:50
narcissism0923 发表于 2018-8-16 09:26
R说白了也只是一门工具,能发挥多大的效能,还是要靠人!掌握了再多的技术,也不一定就是高手。
数据挖掘可 ...
感谢回复,我明白你的意思。
但是我确实想要一些指导性的意见。
我先看下书。
再次感谢!

7
Sunny602678 在职认证  学生认证  发表于 2019-7-5 14:23:51
cheetahfly 发表于 2018-8-16 08:36
R对百万行级的数据表示毫无压力,
至于要对这些数据做什么,这就贯穿了整个DATA SCIENCE的内容,你需要看书 ...
R运行百万级的数据要很久啊 不知道怎么能加快速度

8
cheetahfly 在职认证  发表于 2019-7-5 21:41:21
Sunny602678 发表于 2019-7-5 14:23
R运行百万级的数据要很久啊 不知道怎么能加快速度
现在我每天都用R来处理百万、千万级的数据,并没有太多差别,你是否用了比较多的for循环?
已有 1 人评分论坛币 收起 理由
jiangbeilu + 10 精彩帖子

总评分: 论坛币 + 10   查看全部评分

9
Sunny602678 在职认证  学生认证  发表于 2019-7-6 01:34:15
cheetahfly 发表于 2019-7-5 21:41
现在我每天都用R来处理百万、千万级的数据,并没有太多差别,你是否用了比较多的for循环?
确实是,我经常使用for循环,请问这个能怎么简化呢?请教大神

10
cheetahfly 在职认证  发表于 2019-7-6 22:52:16
Sunny602678 发表于 2019-7-6 01:34
确实是,我经常使用for循环,请问这个能怎么简化呢?请教大神
用dplyr包

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-15 16:27