二、匹配方法:
不同于英文,中文企业名称只要有一个字不同都可能不是同一家企业(英文企业名称有一两个字母不同可能是因为笔误)。所以中文企业名称的模糊匹配没有意义。因此这里使用了精确匹配,考虑到企业名称中经常会把“有限公司”和“有限责任公司”混用,以及有限公司改股份有限公司之类的。所以这里在匹配前删除了下面词汇:股份有限、集团有限、有限责任、有限、责任、股份、公司、厂、 、(集团)、(集团)、(、)、(、)、省、市、区、县、回族自治区、壮族自治区、维吾尔自治区、自治区。这样可以大大提高匹配成功率。附件中也提供了匹配使用的代码供大家参考。

各年数量分布如下:
不过需要注意的是,有差不多 20 万条匹配结果是个人购地的,这些实际上难以确认是匹配成功的结果。毕竟同名的人很多(不同的公司是不允许同名的),所以大家可以考虑使用下面的代码删去这些个人购地的记录:
*- 人名通常是三个字或者两个字的(Stata 中每个汉字的长度为 3)drop if strlen(公司名称) <= 9
另外也有些四、五个字的可能也是人名,不过这些要谨慎删除,避免删除到不该删除的观测值。这些我并没有删除,是因为考虑到有些小伙伴会使用一些“宽松”的准则删除,例如同一个区县(购地人所处的区县和地块所在的区县相同)的同名人可以被视为同一个人,这些就不用删除了。
更新至2023年土地出让数据与工商注册信息匹配数据
(76 Bytes, 需要: RMB 58 元)


雷达卡





京公网安备 11010802022788号







