楼主: gavin4403
2062 2

[数据管理求助] 数据查重请教 [推广有奖]

  • 2关注
  • 0粉丝

博士生

33%

还不是VIP/贵宾

-

威望
0
论坛币
640 个
通用积分
30.6300
学术水平
11 点
热心指数
14 点
信用等级
10 点
经验
4447 点
帖子
170
精华
0
在线时间
238 小时
注册时间
2007-4-27
最后登录
2024-10-4

楼主
gavin4403 发表于 2016-5-5 10:01:34 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
我在导入数据时由于手工操作失误,导致code(证券代码)输入错误。即:
真实的数据为:
code        year        asset
000001    2001        231
000001    2002        234
000001    2003        222
000002    2001       111
000002    2002       100
000002    2003        99
结果在导入数据时将code=000001的数据全部赋予了code=000002,即
code        year        asset
000001    2001        231
000001    2002        234
000001    2003        222
000002    2001        231
000002    2002        234
000002    2003        222
我的问题是如何挑出这些除了code不同外 ,year和asset全部相同的两组或多组数据。这样就可以重新更正数据了。



P.S.造成上述问题的原因是,将code=000001的数据下载下来后保存为000001.xls。由于操作失误,然后重复下载了code=000001的数据,但是,却保存为了000002.xls。所以,就导致出现code不同,但是,year和asset相同的情况。
现在,为了确保数据真实准确,所以,我需要挑出code不同,而year和asset全部相同的数据,重新核对和更正。



望请高手不吝赐教。谢谢。







二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据查重 Asset 相同的数据 code year 如何 手工 证券

沙发
gavin4403 发表于 2016-5-5 10:20:40
这个问题的难点在于——在数据导入阶段就错误时,code=000001和code=000002这两组数据,观测值个数相同,变量的赋值相同。所以,仅仅依靠duplicates或者group命令不容易快速定位出存在错误的观测值。

藤椅
gavin4403 发表于 2016-5-5 10:25:27
请高手指点一下。能否使用循环语句或者其他命令将其快速的定位出来。实际应用的情况是手工下载数据时,由于视觉疲劳,容易敲错字母(如本文的code代码)。但是,后来突然发现前面出现了此类错误。而又不知道从何处起出现了此类错误。由于数据量很大,从头逐次检查不切实际。所以,希望在将数据全部下载完毕后,核对数据时,快速的定位出错误之处,从而快速的重新下载和修改。这样效率会更高。所以,请高手不吝赐教。谢谢。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2025-12-30 08:10