楼主: edwardzxf
4977 13

[其他] STATA中的变量处理 [推广有奖]

  • 0关注
  • 2粉丝

讲师

26%

还不是VIP/贵宾

-

威望
0
论坛币
222 个
通用积分
0.3603
学术水平
0 点
热心指数
2 点
信用等级
0 点
经验
3991 点
帖子
242
精华
0
在线时间
375 小时
注册时间
2010-7-30
最后登录
2021-5-25

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
有个变量,这个变量的有些观察值是相同的。如何把相同的观察值删除掉,即最后这个变量的所有观察值都是不同的,请问如何实现呢?谢谢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Stata tata 变量处理 如何实现 如何

沙发
antaizhziyu1 发表于 2011-7-22 19:54:53 |只看作者 |坛友微信交流群
drop if variable==相同值的数字

使用道具

藤椅
edwardzxf 学生认证  发表于 2011-7-22 20:03:56 |只看作者 |坛友微信交流群
2# antaizhziyu1

这可不行,这么多观察值,我那知道那个观察值重复了?

使用道具

板凳
h3327156 发表于 2011-7-22 20:08:44 |只看作者 |坛友微信交流群
楼上那样做可能会很累 = =
不过,您的问题,记得版上有讨论过类似的。
请参考
https://bbs.pinggu.org/thread-1113066-1-1.html

这样一来,变量里的值,相同的只会保留住一个。
不过,也许您个人还是不满意。也许您希望有出现相同的,那就通通都不要。
您问的问题,难以判定您希望是哪一种情况。
如果是后者,我想只要稍做调整就可。【指对帖子里,牛人们提供的指令】

祝 研安 与 顺心

希望该讨论帖对您有所帮助
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
h894510055 + 1 + 1 + 1 观点有启发

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

使用道具

报纸
sungmoo 发表于 2011-7-22 23:53:59 |只看作者 |坛友微信交流群
help duplicates drop ?
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
h894510055 + 1 + 1 + 1 观点有启发

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

使用道具

地板
lavendercao 发表于 2011-7-29 09:29:50 |只看作者 |坛友微信交流群
这个问题我也在研究呢。

使用道具

7
aolei 发表于 2011-8-8 20:32:14 |只看作者 |坛友微信交流群
请问各位这个怎么处理啊,顶上去

使用道具

8
dxystata 发表于 2011-8-8 20:52:22 |只看作者 |坛友微信交流群
用简单的数据集举个例子!

使用道具

9
h3327156 发表于 2011-8-8 21:00:38 |只看作者 |坛友微信交流群
楼上的aolei,baroman与版主sungmoo不是已给过您答案了吗?
如果您指的是您帖子中的情况
https://bbs.pinggu.org/thread-1149134-1-1.html

那么【以下请贴到stata command下运作】
input x
1
2
3
3
4
5
end

*以下知道您在哪上述资料在哪几个观测值重复,stata帮您列出
duplicates list

*相同的就被删掉了,并保留住一个
duplicates drop

*看一下您的资料,却实五个都相异了
browse
已有 2 人评分学术水平 热心指数 信用等级 收起 理由
h894510055 + 1 + 1 + 1 学习
aolei + 1 + 1 + 1 不好说意思啊,没说清楚,我刚意思是若发现.

总评分: 学术水平 + 2  热心指数 + 2  信用等级 + 2   查看全部评分

使用道具

10
aolei 发表于 2011-8-8 21:20:40 |只看作者 |坛友微信交流群
dxystata 发表于 2011-8-8 20:52
用简单的数据集举个例子!
hhid                      wave                  id_1
231101013          1997        2311010131997
231101013          1997        2311010131997

231101013          2000        2311010132000
231101013          2004        2311010132004
231101013          2006        2311010132006

231101014          1997        2311010141997
231101014          2000        2311010142000
231101014          2004        2311010142004
231101014          2006        2311010142006
231101014          2009        2311010142009

231101015          1997        2311010151997
231101015          2000        2311010152000
231101015          2004        2311010152004

我的意思是一旦发现重复的id_1数据,就将该hhid的所有样本删除。我刚才自己痛苦的摸索出来了哈~~

duplicates tag id_1, gen(ta)      //生成变量对重复数据赋值为1
bysort hhid: egen sd=sd(ta)     //根据hhid生成分组方差
keep if sd==0 | sd==.       //同组内的方差若是不重复肯定为零,单个的hhid方差为缺失值。
drop ta sd

已有 2 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
dxystata + 20 好的意见建议
h894510055 + 1 + 1 + 1 不太懂! 努力学习

总评分: 论坛币 + 20  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-13 09:18