今天在做一个项目的时候发现R剔除重复值比较困难,百度之后找到了解决办法:如果有下列的数据
> a
公司 比例
1 a 0.4
2 a 0.3
3 a 0.2
4 b 0.5
5 b 0.4
如果想仅保留每个公司的第一条数据,可使用如下方法
> duplicated(a$公司)
[1] FALSE TRUE TRUE FALSE TRUE
> b<-duplicated(a$公司)
> a[!b,]
公司 比例
1 a 0.4
4 b 0.5
如果是要完全去重呢?也就是去除公司和比例完全一样的行数据,则用如下方法:
> duplicated(paste(a$公司,a$比例))
[1] FALSE FALSE FALSE FALSE FALSE
> a[!duplicated(paste(a$公司,a$比例)),]
公司 比例
1 a 0.4
2 a 0.3
3 a 0.2
4 b 0.5
5 b 0.4
如果有更好的方法,欢迎回复