楼主: sunziyue
8215 11

[问答] 请问R语言能处理多大的数据啊? [推广有奖]

  • 0关注
  • 0粉丝

初中生

28%

还不是VIP/贵宾

-

威望
0
论坛币
7 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
140 点
帖子
13
精华
0
在线时间
8 小时
注册时间
2017-11-21
最后登录
2018-4-8

楼主
sunziyue 发表于 2017-11-21 15:24:01 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
我刚刚开始学r,昨天写了一个for循环,一直没有读出来= =。不知道是不是我的数据量超标了还是怎样?我现在要继续等下去还是拉倒了换个软件?求大佬解答。
ps:电脑是15年的垃圾air,4gb内存。
下面是程序:(k是2,713,882)
> a=76
> counta=0
> countb=0
> k<-length(newdata3[,2])
> for(i in 1:k){
+ if(newdata3[,2][i]==a){
+ counta=counta+1
+ if(newdata3[,21][i]==0){
+ newdata3[,22][i]=countb/counta
+ }else{countb=countb+1
+ newdata3[,22][i]=countb/counta
+ }}else{a=newdata3[,2][i]
+ counta=0
+ countb=0
+ }}

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:R语言 不知道是不是 Count for循环 Data

沙发
jiangbeilu 学生认证  发表于 2017-11-21 15:43:54
把你的意图说清楚吧,这个循环内嵌几层if else肯定会挂的
你的newdata是应该只有60多M这个样子,应该不会超内存的。

藤椅
sunziyue 发表于 2017-11-21 15:51:30
jiangbeilu 发表于 2017-11-21 15:43
把你的意图说清楚吧,这个循环内嵌几层if else肯定会挂的
你的newdata是应该只有60多M这个样子,应该不会超 ...
谢谢。
我的意图是根据第21列的数据算出概率填在第22列中,同时要考虑到第2列的类别。
-第2列里面全是编号,从76开始,若干个76以后是78,数字和数量都没有规律,以此类推。
-第21列是0或者其它数字。
举个栗子吧,如果ID=76的有100行,1~20行都是0,21行是3,这个时候21行22列的数据就要是1/21(不管数字是什么,分子都只是+1);如果22行是0,[22,22]就是1/22;23行是2,[23,22]就是2/23……
而如果上一行ID=76,这一行ID=78,那么分子分母都要清零……
0.0嗯说的好复杂,希望说清楚了

板凳
sunziyue 发表于 2017-11-21 15:53:13
jiangbeilu 发表于 2017-11-21 15:43
把你的意图说清楚吧,这个循环内嵌几层if else肯定会挂的
你的newdata是应该只有60多M这个样子,应该不会超 ...
emmmmm然后我现在好像已经在一部分第22列的空格处得出结论了,可是不是全部,还没有看到进行了多少……但照这个速度下去不知道要几辈子

报纸
sunziyue 发表于 2017-11-21 15:54:03
jiangbeilu 发表于 2017-11-21 15:43
把你的意图说清楚吧,这个循环内嵌几层if else肯定会挂的
你的newdata是应该只有60多M这个样子,应该不会超 ...
= =之前写了段好长的,在审核中,刚刚那个是后发的

地板
jiangbeilu 学生认证  发表于 2017-11-21 16:42:37

不知道这样子的输出是不是你想要的?回答一下最后一行,应该输出什么吧?
id,c21,c22
76,0,0/1
76,1,1/2
76,0,1/3
76,2,2/4
78,3,0
76,3,1/5 or 1/1 or 3/5 ?

7
sunziyue 发表于 2017-11-21 16:56:40
jiangbeilu 发表于 2017-11-21 16:42
不知道这样子的输出是不是你想要的?回答一下最后一行,应该输出什么吧?
id,c21,c22
76,0,0/1
78那里,最后一列是1
最后一行那种情况不存在啦,因为我已经排序排好了

8
jiangbeilu 学生认证  发表于 2017-11-21 19:24:44
把每组分子和分母的变化考虑好就Ok了。
R里面是可以分组计算的。
  1. library(dplyr)
  2. id=c(1,1,1,1,2,2,2)
  3. c22 = c(0,1,0,2,2,3,0)
  4. gg <- data.frame(id,c22)
  5. cumind <- function(x){
  6. x[which(x>0)]=1
  7. return(cumsum(x)/(1:length(x)))
  8. }
  9. gg %>% select(id,c22) %>% group_by(id) %>% do(data.frame(c22=.$c22,id_prob=cumind(.$c22)))
复制代码
已有 1 人评分论坛币 学术水平 热心指数 收起 理由
crystal8832 + 10 + 1 + 1 热心帮助其他会员

总评分: 论坛币 + 10  学术水平 + 1  热心指数 + 1   查看全部评分

9
sunziyue 发表于 2017-11-21 19:36:47
jiangbeilu 发表于 2017-11-21 19:24
把每组分子和分母的变化考虑好就Ok了。
R里面是可以分组计算的。
哦好的谢谢,就是请问前面几行括号里的数字代表什么呀?如果是数据库里面的数值,那请问我有两百多万行要怎么办?

10
jiangbeilu 学生认证  发表于 2017-11-21 20:46:55
sunziyue 发表于 2017-11-21 19:36
哦好的谢谢,就是请问前面几行括号里的数字代表什么呀?如果是数据库里面的数值,那请问我有两百多万行要 ...
把数据库数据导出来,再读,或者直接连数据库读取数据

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-19 04:13