数据名称:2000-2021土地转让数据
爬虫软件:Stata 16
来源:中国土地市场网
网址:https://www.landchina.com/
截止日期:2021年3月1日
观测值:81万+
变量个数:32(详见后文)
数据特色:添加了经纬度(根据百度地图API)、添加了所在省份、所在城市和所在区县
爬了20来天,终于搞定了!这个数据虽然比不上上次土地交易数据的275万多,但81万也是非常多的。我不得不再一次强调Stata的爬虫能力,curl 还是非常好用的,特别是对付 post 请求。这里爬取的过程中也会有很多难点,比如:网站只提供前 200 页,如何爬取完整的数据呢?单一的 cookie 爬取太多页以后会触动反爬,又要如何应对呢?大量数据的爬取可能由于网络等原因,导致个别数据有问题,检查和补充完整则非常重要,我看到很多人处理的数据很不够精细,包括一些数据库,所以会了方法以后,还要有一颗细致的心和艺术的情怀。艺术的情怀?对,很多代码是需要想象力和创造力的。不太熟悉 curl 的小伙伴建议先百度找一下相关内容简单学习一下。在代码中,我也是加了非常多的注释便于大家理解。当然,并不是所有小伙伴都对爬虫代码感兴趣,如果向直接获取数据也是可以的!为了让大家更好地了解数据,在附件中提供了示例数据(根据总观测值抽样不到3%,大概又2万+观测值),大家可以免费下载查阅。