楼主: 楚止蔡
23211 13

[数据管理求助] 按条件删除重复值求助duplicates [推广有奖]

  • 1关注
  • 1粉丝

已卖:1份资源

博士生

77%

还不是VIP/贵宾

-

威望
0
论坛币
765 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
2301 点
帖子
95
精华
0
在线时间
601 小时
注册时间
2011-3-7
最后登录
2022-3-28

楼主
楚止蔡 发表于 2014-9-14 21:12:45 |AI写论文
30论坛币
删除所有包含year=2000的重复ID

数据格式如下:
行编号  id        year
   1         1         2000
   2         1         2002
   3         1         2003
   4         2         2003
   5         2         2004
   6         3         2000
   7         3         2001
   8         4         2003

更多解决方法见11楼,





最佳答案

dxystata 查看完整内容

可以这样简单实现!
关键词:duplicates duplicate ICA CAT ATE

回帖推荐

蓝色 发表于11楼  查看完整内容

本来很简单的问题,你表述不清楚,导致搞的很复杂。 不就是要删除, 如果同一个id中只要包含year=2000的数据,那就把这同一个id的所有的样本都剔除 * 方法1 clear input id1 id year 1 1 2000 2 1 2002 3 1 2003 4 2 2003 5 2 2004 6 3 2000 7 3 2001 8 4 ...

沙发
dxystata 发表于 2014-9-14 21:12:46
  1. clear
  2. input id1 id year
  3.    1         1         2000
  4.    2         1         2002
  5.    3         1         2003
  6.    4         2         2003
  7.    5         2         2004
  8.    6         3         2000
  9.    7         3         2001
  10.    8         4         2003
  11. end

  12. sort id year
  13. duplicates tag year if year==2000,gen(tag)
  14. replace tag=tag[_n-1] if tag==. & id[_n-1]==id[_n]
  15. drop if tag==1
  16. drop tag
  17. list
复制代码


可以这样简单实现!
已有 2 人评分威望 论坛币 学术水平 热心指数 收起 理由
admin + 1 热心帮助其他会员
crystal8832 + 12 + 1 + 1 观点有启发

总评分: 威望 + 1  论坛币 + 12  学术水平 + 1  热心指数 + 1   查看全部评分

藤椅
楚止蔡 发表于 2014-9-14 21:15:35
不用duplicates解决当然也行!只要能解决问题。。。

板凳
ry0224 在职认证  发表于 2014-9-14 21:45:43
要把所有year=2000的值都删掉吗,如那样,drop   if year==2000好了。

报纸
楚止蔡 发表于 2014-9-14 21:56:41
ry0224 发表于 2014-9-14 21:45
要把所有year=2000的值都删掉吗,如那样,drop   if year==2000好了。
除了year=2000的,还有那些和year=2000的ID相同的观测值,例如第一行year=2000 对应 id=1,那么想删去的是所有id=1的。不过还是谢谢你的回复^_^

地板
dxystata 发表于 2014-9-15 12:54:46
  1. clear
  2. input id1 id year
  3.    1         1         2000
  4.    2         1         2002
  5.    3         1         2003
  6.    4         2         2003
  7.    5         2         2004
  8.    6         3         2000
  9.    7         3         2001
  10.    8         4         2003
  11. end



  12. levelsof id if year==2000,clean
  13. forvalues i=1/`=wordcount(r(levels))' {
  14.         drop if id==real(word(r(levels)),`i')
  15. }
复制代码
已有 1 人评分论坛币 学术水平 热心指数 收起 理由
crystal8832 + 24 + 2 + 2 热心帮助其他会员

总评分: 论坛币 + 24  学术水平 + 2  热心指数 + 2   查看全部评分

7
楚止蔡 发表于 2014-9-15 22:06:33
dxystata 发表于 2014-9-15 12:54
谢谢你的回复,levelsof确实能解决这个样例,但是发现我的数据太大,超出了能存储的最大值,可能没办法做



8
楚止蔡 发表于 2014-9-15 22:21:40
dxystata 发表于 2014-9-15 12:54
保留十五字保留十五字,是要十五字么。。。

9
楚止蔡 发表于 2014-9-15 23:20:39
dxystata 发表于 2014-9-15 22:37
可以这样简单实现!
你太聪明了,谢谢!不过那个我得改成 drop if tag!=.才行,因为tag存储的year=2000的数值。

10
楚止蔡 发表于 2014-9-15 23:27:09
dxystata 发表于 2014-9-14 21:12
可以这样简单实现!
想再请教一个问题,gen(tag)后我的显示是year!=2000的那些全是缺失值.,year=2000的数字是一样的一个114000多少的,然后我看tag的相关指令,无重复的应该是会tag=0的,然后有重复的tag=1,是这样么,那我这个情况是版本问题,还是什么问题。。。。当然这都可以解决我的问题,只是想了解下tag的原理。。。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2025-12-26 10:16