楼主: weizhoukkk
5189 5

[数据管理求助] 请问如何比较字段内容的相似度问题 [推广有奖]

  • 0关注
  • 0粉丝

已卖:101份资源

讲师

59%

还不是VIP/贵宾

-

威望
0
论坛币
50 个
通用积分
0.4653
学术水平
3 点
热心指数
1 点
信用等级
0 点
经验
224 点
帖子
103
精华
0
在线时间
979 小时
注册时间
2006-3-26
最后登录
2025-10-29

楼主
weizhoukkk 发表于 2014-9-17 17:19:59 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
请教大家:我想比较某一变量内观测值之间的差异度,筛选出实质相同和不同的情况,比如:

stkcd        bgnf        zjjc        firm
1        2001        平安银行        深圳鹏城会计师事务所
1        2002        平安银行        深圳鹏城会计师事务所
1        2003        平安银行        深圳鹏城会计师事务所
1        2004        平安银行        深圳鹏城会计师事务所
1        2005        平安银行        深圳市鹏城会计师事务所有限公司
1        2006        平安银行        深圳市鹏城会计师事务所有限公司
1        2007        平安银行        安永华明会计师事务所
1        2008        平安银行        安永华明会计师事务所
1        2009        平安银行        安永华明会计师事务所
1        2010        平安银行        安永华明会计师事务所
1        2011        平安银行        安永华明会计师事务所
1        2012        平安银行        安永华明会计师事务所
1        2013        平安银行        普华永道中天会计师事务所

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~·
我想知道,平安银行究竟哪一年更换了不同的firm,因为中文表述、数据采集以及公司变更组织结构等问题,尽管“深圳鹏城会计师事务所”与“        深圳市鹏城会计师事务所有限公司”是相同的公司,使用STATA简单比较仍然会被认为是不同的firm,有没有办法能够区分出这种问题,分辨从“深圳鹏城会计师事务所”到“        深圳市鹏城会计师事务所有限公司“并没有更换firm,而从”深圳市鹏城会计师事务所有限公司“与”安永华明会计师事务所“更换了firm。
实在很挠头,谢谢大家了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:相似度 会计师事务所 Stata stkcd 平安银行 平安银行 有限公司 深圳市 会计师 事务所

沙发
ermutuxia 发表于 2014-9-17 17:28:16
软件没你想的那么智能,你需要把近似的改为一至的,建议把所有不重复的事务所找出来,然后人工把近似的统一为一个名字,然后再计算
已有 1 人评分经验 学术水平 收起 理由
SpencerMeng + 100 + 1 分析的有道理

总评分: 经验 + 100  学术水平 + 1   查看全部评分

藤椅
weizhoukkk 发表于 2014-9-17 18:32:11
这样工作量很大,我的想法是生成一个相似度指标,然后对于相似度进行手工调整,可能比较有效,不知道stata有没有这类内容相似度的比较命令

板凳
Sherly__ 学生认证  发表于 2019-1-11 19:56:48
weizhoukkk 发表于 2014-9-17 18:32
这样工作量很大,我的想法是生成一个相似度指标,然后对于相似度进行手工调整,可能比较有效,不知道stata有 ...
请问这个问题您解决了么?

报纸
伟轩 发表于 2019-1-17 17:44:21
以前帮一个朋友处理过类似的情况,但是很繁琐。所谓的相似度很难去界定,哪些字相同、多少百分比相同才算是相似?所以建议换个思路

地板
carweed 发表于 2019-6-4 17:45:40
这个可以有!
strdist {varname1|"string1"} {varname2|"string2"} [if] [in] [, generate(newvar) ]
jarowinkler varname1 varname2 [,generate(newvar) jaroonly(newvar) pwinkler(x) ]

这两个命令了解一下,不谢~!

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-2-9 10:20