楼主: god_on
1914 1

[数据管理求助] 一组数据中的不匹配问题 如何根据已有数据进行修改? [推广有奖]

  • 4关注
  • 1粉丝

硕士生

53%

还不是VIP/贵宾

-

威望
0
论坛币
778 个
通用积分
6.8616
学术水平
2 点
热心指数
2 点
信用等级
2 点
经验
5266 点
帖子
74
精华
0
在线时间
269 小时
注册时间
2010-3-7
最后登录
2025-10-29

楼主
god_on 发表于 2013-8-27 03:00:32 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
下面是一组家庭的例子。hhid08与hhid06分别是08年和06年调查的家庭id。hhid08的家庭成员有各自的ivid08,name08(越南文),gender08,yob08,mob08,relation08。hhid06亦然。
这一组中的问题是原始数据中ivid06的信息不能和同一行的ivid08匹配,可以观察到同一个household的数据有颠倒的现象。现在想以ivid08为基准进行调整。以第一行为例,ivid06与ivid08并非同一个人,但可以观察到ivid06==60519130240803的信息应该与第四行ivid08==605191302400804匹配,故将第四行的ivid06_revised赋值为60519130240803 (见蓝色高亮)。下表中的ivid06_revised即目测检查后的修改结果。
由于数据量非常大因此visual inspection非常耗时,同时原始普查数据存在个别错误,即使能做出判断也存在一些错误,如name的拼写(见黄色高亮),出生年月的误差relation的变化(如06年的child在08年可能是head),请问有没有一种算法可以提供精度较高的匹配?本人第一次提问,如有疏忽请予以指出,谢谢。

hhid08hhid06ivid08ivid06ivid06_revisedname08name06
60519130240086051913024086051913024008016051913024080360519130240801h nghüa by¨BY¡ Y §¸P
60519130240086051913024086051913024008026051913024080160519130240807y mYp niaBY¡ H NGHüA
60519130240086051913024086051913024008036051913024080260519130240808h hi¨n by¨BY¡ Y S|¥NG
60519130240086051913024086051913024008046051913024080560519130240803BY¡ Y §¸PNI£ Y DA N¤
60519130240086051913024086051913024008056051913024080660519130240804y min by¨.BY¡ H KYNH
60519130240086051913024086051913024008066051913024080760519130240805NI£ Y DA N¤NI£ Y MIP
60519130240086051913024086051913024008076051913024080860519130240806BY¡ H KYNHBY¡ HIAN
6051913024008605191302408605191302400808BY¡ H trim
605191302400860519130240860519130240804BY¡ Y MIN


gender08gender06yob08yob06mob08mob06relation08relation06
FemaleMale19851989107HeadOther
MaleFemale19351985610ParentHead
FemaleMale1949198778ParentOther
MaleMale1989198078OtherSpouse
MaleFemale19912004511OtherChild
MaleMale1980193586OtherParent
FemaleFemale20041949117ChildParent
Female20064Child
Male19915Other

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:不匹配 INSPECTION household relation revised household relation visual 越南 如何

沙发
bbs0805 发表于 2013-8-27 16:12:16
问题不是很清楚,
一、家庭与个人代码分别在08与06年不相同,从你给的数据可看出的差别是08年比06年分别相关一个字符0
如ivid06为60519130240803,ivid08为605191302400804,家庭代码类似,但实际肯定并非如此!
二、此类一般是整理为面板数据,而你好像并不是,所以当数据变量很多时处理有较大不同,不知……

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-1-4 00:54