人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › 数据分析与数据挖掘 › 【R小技巧】实现分组筛选第1条、最后一条、或第n条记录

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: 阿扁V5

6422 5

[数据挖掘工具] 【R小技巧】实现分组筛选第1条、最后一条、或第n条记录 [推广有奖]

1关注
43粉丝

版主

山野小子

副教授

94%

还不是VIP/贵宾

威望: 0 级
论坛币: -12154322 个
通用积分: 3822.7338
学术水平: 108 点
热心指数: 119 点
信用等级: 91 点
经验: 49314 点
帖子: 1168
精华: 1
在线时间: 651 小时
注册时间: 2013-3-22
最后登录: 2024-3-17

阿扁V5

发表于 2018-8-10 16:35:56 |显示全部楼层 |坛友微信交流群

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

这里分享一个R小技巧：实现分组筛选第1条、最后一条、或第n条记录。平时可能经常遇到一种问题，比如在不同省份不同性别中选取最近登录的记录，实质就是对省份、性别、登录时间排序，并选择最后一条记录，在sas、python甚至sql都有相关的函数可以快速实现该功能，比如sas有last/first，而R实现起来就比较麻烦，当然可以用sql的group by也是可以的，这里分享另一个技巧，搜索全网别无二家哦。
简单结合order、aggregate函数和dplyr即可实现，代码如下：

library(dplyr)
# 分组排序
temp = iris[order(iris$Species, iris$Petal.Width), ]
# 先用attach函数把temp的列变量名称加入到变量搜索范围内
attach(temp)
# 选择每组最后一条记录
temp1 = aggregate(temp, by=list(Species, Petal.Width)
,FUN = last)
# 选择每组第一条记录
temp2 = aggregate(temp, by=list(Species, Petal.Width)
,FUN = first)
# 选择每组第n=2条记录
temp3 = aggregate(temp, by=list(Species, Petal.Width)
,FUN = nth, n=2)

复制代码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

关键词：搜索范围不同性别快速实现不同性变量名

回帖推荐

felixzhao123 发表于3楼查看完整内容

分享一个dplyr的方法，共同学习

已有 1 人评分	经验	收起理由
东方祥	+ 100	精彩帖子

总评分: 经验 + 100 查看全部评分

憧憬机器学习的世界！

使用道具举报

阿扁V5

发表于 2018-8-10 18:10:36 |显示全部楼层 |坛友微信交流群

补充一下，这个好像效率比较低，sql还快一些

使用道具举报

felixzhao123 发表于 2018-8-16 08:58:57 |显示全部楼层 |坛友微信交流群

分享一个dplyr的方法，共同学习

top_2_by_Sepal_Width <- iris %>%
group_by(Species) %>%
arrange(desc(Sepal.Width)) %>%
top_n(n=2,wt=Sepal.Width) %>%
top_n(n=-1,wt=Sepal.Width)

复制代码

已有 1 人评分	经验	论坛币	学术水平	收起理由
阿扁V5	+ 60	+ 10	+ 1	鼓励积极发帖讨论

总评分: 经验 + 60 论坛币 + 10 学术水平 + 1 查看全部评分

使用道具举报

felixzhao123 发表于 2018-8-16 09:04:05 |显示全部楼层 |坛友微信交流群

上面的方法不够简练，这个似乎更好一些：

top_2_by_Sepal_Width <- iris %>%
group_by(Species) %>%
arrange(desc(Sepal.Width)) %>%
filter(Sepal.Width==nth(Sepal.Width,2))

复制代码

已有 1 人评分	经验	论坛币	收起理由
阿扁V5	+ 40	+ 10	鼓励积极发帖讨论

总评分: 经验 + 40 论坛币 + 10 查看全部评分

使用道具举报

阿扁V5

发表于 2018-8-17 10:26:49 |显示全部楼层 |坛友微信交流群

felixzhao123 发表于 2018-8-16 09:04
上面的方法不够简练，这个似乎更好一些：

尝试了一下，这样筛选的会把重复的选进去

使用道具举报

东方祥

发表于 2018-9-26 14:45:05 |显示全部楼层 |坛友微信交流群

Pandas有没有类似这种的，分组后筛选第一条或前几条的功能

使用道具举报

返回列表

发帖

本版微信群

加好友,备注cda
拉您进交流群

手机版 |

意见反馈 |

帮助 |

新手入门 |

用户手册 |

友情链接 |

如有投资本站、合作意向或投放广告，请联系：13661292478（刘老师）

联系客服

邮箱：service@pinggu.org 投诉或不良信息处理：（010-68466864）

京ICP备16021002-2号京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明

[数据挖掘工具] 【R小技巧】实现分组筛选第1条、最后一条、或第n条记录 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

回帖推荐

本版微信群

扫码加我拉你入群