楼主: tutuepi
3632 4

[问答] 求教如何用R识别重复记录的对子 [推广有奖]

  • 0关注
  • 0粉丝

高中生

10%

还不是VIP/贵宾

-

威望
0
论坛币
426 个
通用积分
0.6000
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
78 点
帖子
4
精华
0
在线时间
48 小时
注册时间
2005-12-10
最后登录
2023-12-25

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
想用R来识别数据集中某个变量重复的所有重复记录,
如数据库中有如下5条记录
姓名  学科   城市   分数
a     数学   北京   90
a     语文    北京   89
b     地理   天津   90
e    语文    南京  90
c   地理   南京  86
c   语文   合肥  85
查重条件是姓名+城市相同,想给姓名和城市名相同的所有记录赋值为1,不满足重复条件的记录赋值为0,即结果是:
姓名  学科   城市  分数  dup
a     数学    北京    90      1   
a     语文    北京    89      1
b    地理    天津    90       0
e    语文     南京   90       0
c    地理    南京    86       0
c    语文   合肥     85       0

用duplicated()好像只能识别重复记录的第2条,如何能将重复记录的对子识别出来?求高人指点

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:如何用 duplicate 求高人指点 高人指点 数据库

沙发
菊花冰糖水 发表于 2018-4-14 14:47:52 |只看作者 |坛友微信交流群
  1. df <- data.frame("name"=c('a','a','b','e','c','c'),"object"=c('math','chinese','geo','chinese','geo','chinese'),
  2.                  "city"=c('beijing','beijing','tianjin','nanjing','nanjing','hefei'),
  3.                  "score"=c(90,89,90,90,86,85))

  4. library(dplyr)
  5. df %>%
  6.   group_by(name,city) %>%
  7.   mutate (dup = if (n() ==1) 0 else 1)
复制代码


试试这个
已有 1 人评分论坛币 学术水平 热心指数 收起 理由
cheetahfly + 20 + 1 + 1 精彩帖子

总评分: 论坛币 + 20  学术水平 + 1  热心指数 + 1   查看全部评分

使用道具

藤椅
tutuepi 发表于 2018-4-14 21:48:52 |只看作者 |坛友微信交流群
菊花冰糖水 发表于 2018-4-14 14:47
试试这个
好用,解决了我的问题,非常感谢

使用道具

板凳
阿璇tian 发表于 2018-7-23 16:18:32 |只看作者 |坛友微信交流群
请问,我按您的方法做的,为什么view这个数据框,没有生成dup这个变量?

使用道具

报纸
zzbb2266 发表于 2019-2-20 11:00:27 |只看作者 |坛友微信交流群
阿璇tian 发表于 2018-7-23 16:18
请问,我按您的方法做的,为什么view这个数据框,没有生成dup这个变量?
  1. df2 <- df %>%
  2.   group_by(name,city) %>%
  3.   mutate (dup = if (n() ==1) 0 else 1)
复制代码
管道符并没有改变df本身的结构,要自己写进去
已有 2 人评分论坛币 学术水平 热心指数 收起 理由
hilarong + 5 + 2 + 2 精彩帖子
cheetahfly + 10 热心帮助其他会员

总评分: 论坛币 + 15  学术水平 + 2  热心指数 + 2   查看全部评分

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-20 00:29