楼主: yui1207233
5193 3

[问答] 如何将实现数据分组(分箱),求助 [推广有奖]

  • 0关注
  • 0粉丝

高中生

95%

还不是VIP/贵宾

-

威望
0
论坛币
10 个
通用积分
1.1000
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
149 点
帖子
10
精华
0
在线时间
55 小时
注册时间
2018-5-10
最后登录
2022-7-5

楼主
yui1207233 发表于 2018-7-23 13:48:51 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

现有一数据框为两列100W+行,第一列为0~1.5范围内的数,第二列为这些数对应出现的次数。现要求将100W+行数据按第一列大小分为1000个组且组名用组内均值表示,每组出现次数(第二列)为组内元素出现次数之和。求问如何操作?感谢感谢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:出现次数 均值表示 行数据

回帖推荐

zerofung 发表于2楼  查看完整内容

模拟一下你的情况 library(tidyverse) df % #生成辅助列,l所在区间,利于待会分组计算 group_by(cut) %>% mutate(Mean = mean(l), Sum = sum(n)) %>%#按区间分组,生成该区间的均值和该区间的频数和 ungroup %>% select(-l,-n,-cut) %>% unique()#取消分组,把多余的列和行去掉

沙发
zerofung 学生认证  发表于 2018-7-23 19:52:57
模拟一下你的情况
library(tidyverse)
df <- data.frame(l=rnorm(1000,mean = 5,sd =0.1),n = sample(1:100,1000,replace = T))#做一个1000行的数,待会分成10组
df2 <- df %>% mutate(cut = cut(l,breaks = 10)) %>% #生成辅助列,l所在区间,利于待会分组计算
group_by(cut) %>% mutate(Mean = mean(l), Sum = sum(n)) %>%#按区间分组,生成该区间的均值和该区间的频数和
ungroup %>% select(-l,-n,-cut) %>% unique()#取消分组,把多余的列和行去掉
已有 1 人评分论坛币 收起 理由
cheetahfly + 10 热心帮助其他会员

总评分: 论坛币 + 10   查看全部评分

藤椅
yui1207233 发表于 2018-7-24 14:07:05
zerofung 发表于 2018-7-23 19:52
模拟一下你的情况
library(tidyverse)
df % #生成辅助列,l所在区间,利于待会分组计算
厉害!

板凳
sitp打铁书生 发表于 2019-10-8 17:29:54
yui1207233 发表于 2018-7-24 14:07
厉害!
解决了吗,用python如何解决呢,碰到了类似的问题

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-1 17:37