楼主: pyh9012025
4030 4

[编程问题求助] 请教如何找出异常的观测值 [推广有奖]

  • 0关注
  • 1粉丝

硕士生

6%

还不是VIP/贵宾

-

威望
0
论坛币
859 个
通用积分
4.4000
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
12454 点
帖子
28
精华
0
在线时间
216 小时
注册时间
2011-12-4
最后登录
2025-6-30

楼主
pyh9012025 发表于 2017-7-31 18:39:09 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币


例如手中的数据是这样的:

yearnamecode
1999张三1
2000张仨1
2001张三1
1999李四2
2000李四2
2001李四2

每个观测值都有相应的code值,但是有些观测值的中文名出现了异常,比如上面中张三在2000年误作了“张仨”。

想列出观测值,条件是:具有相同的code值,但是不同的name值。请问该怎么列出呢?

谢谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:观测值 code name year Earn

沙发
黃河泉 在职认证  发表于 2017-7-31 19:10:18
1.爾後請用 dataex (先 ssc install dataex 并见说明) 将原始 Stata 资料中具有”代表性”的一部分资料列出,以供有意回答者实验之用,并能提供具体操作指令。
2. 你需先安装 scc install egenmore,然後試試
  1. * Example generated by -dataex-. To install: ssc install dataex
  2. clear
  3. input float year str10 name float code
  4. 1999 "张三" 1
  5. 2000 "张仨" 1
  6. 2001 "张三" 1
  7. 1999 "李四" 2
  8. 2000 "李四" 2
  9. 2001 "李四" 2
  10. 1999 "王五" 3
  11. 2000 "王六" 3
  12. 2001 "主五" 3
  13. end

  14. bys code (year): egen n = nvals(name)
复制代码
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
pyh9012025 + 1 + 1 + 1 精彩帖子

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

藤椅
pyh9012025 发表于 2017-7-31 19:23:46
黃河泉 发表于 2017-7-31 19:10
1.爾後請用 dataex (先 ssc install dataex 并见说明) 将原始 Stata 资料中具有”代表性”的一部分资料列出 ...
谢谢,不知道我列出的数据是不是例子不合适。我目前是这么处理的,似乎可以解决:
  1. bys name:g name_N=_N
  2. bys code:g code_N=_N
  3. sort code
  4. list name code if name_N != code_N
复制代码



板凳
pyh9012025 发表于 2017-7-31 19:27:50
黃河泉 发表于 2017-7-31 19:10
1.爾後請用 dataex (先 ssc install dataex 并见说明) 将原始 Stata 资料中具有”代表性”的一部分资料列出 ...
谢谢!我懂了您code的意思,比我的更简洁

报纸
黃河泉 在职认证  发表于 2017-8-1 07:56:26
pyh9012025 发表于 2017-7-31 19:23
谢谢,不知道我列出的数据是不是例子不合适。我目前是这么处理的,似乎可以解决:
也是 OK。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-1-21 04:36