楼主: peyzf
14927 8

[数据管理求助] duplicates drop 删除重复观测值的随机性 [推广有奖]

  • 1关注
  • 63粉丝

警督

大师

59%

还不是VIP/贵宾

-

威望
2
论坛币
566735 个
通用积分
200.4746
学术水平
218 点
热心指数
240 点
信用等级
140 点
经验
132065 点
帖子
12769
精华
0
在线时间
2976 小时
注册时间
2007-9-8
最后登录
2025-10-10

楼主
peyzf 发表于 2016-8-24 11:43:16 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
以x1 x2 作为标准删除重复观察值duplicates drop x1 x2, force


sum x3 x4后,每次得到的结果不一致,为何会出现这一原因?
是不是duplicates drop 在删除时产生了随机性?如何能够保证得到唯一的结果?

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:duplicates duplicate 重复观测 drop 观测值 如何

沙发
蓝色 发表于 2016-8-24 12:38:06
既然是以x1,x2为准  这两个只要是重复了,应该是随便删除哪个都是可以的
如果x1,x2是一样的,为什么x3和x4不同,这没有道理



藤椅
peyzf 发表于 2016-8-24 13:10:05
感谢楼上的朋友。
这是由数据的复杂决定的,两个观察值可能在x1,x2上是一样的,但在x3,x4上可能是不一样的。此种情况一般如何处理?

板凳
蓝色 发表于 2016-8-24 15:47:29
那就不能删除

报纸
peyzf 发表于 2016-8-25 00:14:40
分析有道理,谢谢!

地板
阿狸与桃子 发表于 2016-8-25 01:18:18
用duplicates drop只保存相同观测的第一个值。你说的每次drop之后其他变量的su结果不一样可能是因为duplicates drop之前的某些命令会随机打乱观测值的排序,比如merge。
如果想每次duplicates drop的结果一样,建议在drop之前的关键步骤先进行sort,再gen order = _n。这样再在drop之前sort order可以确保每次删除的都是同一批重复观测。

7
蓝色 发表于 2016-8-25 08:45:00
阿狸与桃子 发表于 2016-8-25 01:18
用duplicates drop只保存相同观测的第一个值。你说的每次drop之后其他变量的su结果不一样可能是因为duplica ...
这种情况不能那样删除

比如CHNS的数据
********************************************
家庭成员的工作记录
户编码   个人       工资                第几个工作
hu        id            wage                 job
1          101        5000                  1
1          101        2000                  2
1         102                                  1
1         103                                   1

一个人可能一年有两个工作,如果按照hu   id 都是相同的就删除,这不对
明显就是遗漏一个第几个工作的变量这种情况能删除吗?删除哪一个都不对,本来人家一年就是找了2分工作
********************************************************
还是同样数据如下:
户编码   个人       性别        年龄
hu        id            gender   age
1          101        1            52     
1          101        2             49   
1         103          1            24           
1         104           2           20           
如果遇到这种情况,很明显一个户里面同一个人怎么可能又不同的年龄和性别呢
这明显就是id错误了
这时候不是剔除样本,而是需要纠错。
****************************************
********************************************************
还是同样数据如下:
户编码   个人       工资                第几个工作
hu        id            wage                 job
1          101        5000                  1
1          101        2651                  2
1          101        2651                  2

1         102         6132                   1
1         102         6132                   1

1         103         4000                   1     
如果遇到这种情况,才是对录入了2行,才需要剔除
****************************************



重复的时候不是剔除,而是应该查明是什么原因导致的,不同的原因,方式不一样的




已有 1 人评分学术水平 热心指数 信用等级 收起 理由
黃河泉 + 2 + 2 + 2 精彩帖子

总评分: 学术水平 + 2  热心指数 + 2  信用等级 + 2   查看全部评分

8
阿狸与桃子 发表于 2016-8-25 16:07:57
蓝色 发表于 2016-8-25 08:45
这种情况不能那样删除

比如CHNS的数据
蓝版主说的很对,我只是提示了一下在确认要drop的情况下,为什么每次duplicates drop后的结果会不一样。

9
peyzf 发表于 2016-8-27 20:09:54
感谢楼上朋友的讨论~~

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2025-12-22 22:04