楼主: bukomh
492 2

[实证分析] 更新至2023年土地出让数据与工商注册信息匹配数据 [推广有奖]

  • 1关注
  • 21粉丝

已卖:539份资源

副教授

18%

还不是VIP/贵宾

-

威望
0
论坛币
5 个
通用积分
16.3775
学术水平
0 点
热心指数
2 点
信用等级
0 点
经验
5264 点
帖子
167
精华
0
在线时间
895 小时
注册时间
2022-11-24
最后登录
2025-10-7

楼主
bukomh 学生认证  发表于 2024-2-2 20:15:09 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
一、数据介绍:该数据包含土地出让结果公告数据和1949~2020年工商企业注册信息(含经纬度及其所处的省市区县)数据。由于两份数据都非常巨大(13GB 和 300GB),所以就直接帮大家匹配好了。
二、匹配方法:

不同于英文,中文企业名称只要有一个字不同都可能不是同一家企业(英文企业名称有一两个字母不同可能是因为笔误)。所以中文企业名称的模糊匹配没有意义。因此这里使用了精确匹配,考虑到企业名称中经常会把“有限公司”和“有限责任公司”混用,以及有限公司改股份有限公司之类的。所以这里在匹配前删除了下面词汇:股份有限、集团有限、有限责任、有限、责任、股份、公司、厂、 、(集团)、(集团)、(、)、(、)、省、市、区、县、回族自治区、壮族自治区、维吾尔自治区、自治区。这样可以大大提高匹配成功率。附件中也提供了匹配使用的代码供大家参考。

各年数量分布如下:
匹配1.png

不过需要注意的是,有差不多 20 万条匹配结果是个人购地的,这些实际上难以确认是匹配成功的结果。毕竟同名的人很多(不同的公司是不允许同名的),所以大家可以考虑使用下面的代码删去这些个人购地的记录:

*- 人名通常是三个字或者两个字的(Stata 中每个汉字的长度为 3)
drop if strlen(公司名称) <= 9

另外也有些四、五个字的可能也是人名,不过这些要谨慎删除,避免删除到不该删除的观测值。这些我并没有删除,是因为考虑到有些小伙伴会使用一些“宽松”的准则删除,例如同一个区县(购地人所处的区县和地块所在的区县相同)的同名人可以被视为同一个人,这些就不用删除了。




更新至2023年土地出让数据与工商注册信息匹配数据 (76 Bytes, 需要: RMB 58 元)



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:工商注册 注册信息 土地出让 股份有限公司 有限责任公司

沙发
遗失的安道尔(未真实交易用户) 学生认证  发表于 2024-6-6 11:32:32
请问数据来源是哪里?靠谱吗

藤椅
bukomh(未真实交易用户) 学生认证  发表于 2024-6-6 11:41:34
遗失的安道尔 发表于 2024-6-6 11:32
请问数据来源是哪里?靠谱吗
靠谱,来自中国土地市场网和工企数据库

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-29 15:32