求助！如何去除重复行才更快？求交流

1关注
1粉丝

已卖：286份资源

博士生

54%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 2701 个
通用积分: 3.4261
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 12167 点
帖子: 214
精华: 0
在线时间: 141 小时
注册时间: 2016-11-1
最后登录: 2024-3-26

楼主

lanhong1993 发表于 2017-4-8 23:44:34 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

如图，比如我有如上数据，我想根据相同的ID1和ID2，保留时间最早的那一行。我的操作是这样的：
library(dplyr)
data<-arrange(data,data$ID1,data$ID2,data$time)
data<-data[!duplicated(data$ID1,data$ID2),]
首先根据ID1，ID2，time排序，然后用!duplicated()删去ID1和ID2重复的行，保留的即是时间最早的那一行。但是由于数据量庞大，每次运算都要花费好几个小时。所以在此请教各位老师，有没有更快的运算方法，占用内存或时间少一点的。（duplicated的缺点就是运算慢）