数据:2000-2021中国土地交易数据(包含全部爬虫代码)
爬虫软件:Stata16(提供爬虫代码)
来源:中国土地市场网
网址:https://www.landchina.com/
截止日期:2021年3月1日
观测值:275万+
变量:27终于处理完了,太不容易了!这个数据量实在是太大了!很多人觉得 Stata 的爬虫能力弱,其实不然,中国土地市场网的数据就不太容易,有相对强大的反爬机制,请求模式是 post ,想用 copy 命令的小伙伴赶紧放弃吧!那么,如何爬取这套275万多的数据呢?网站只提供前 200 页,如何爬取完整的数据呢?单一的 cookie 爬取太多页以后会触动反爬,又要如何应对呢?可以好好学习一下代码,当然这里用到了 curl ,不太熟悉的小伙伴建议先百度找一下相关内容简单学习一下。在代码中,我也是加了非常多的注释便于大家理解。当然,并不是所有小伙伴都对爬虫代码感兴趣,如果向直接获取数据也是可以的!为了让大家更好地了解数据,在附件中提供了示例数据(根据总观测值抽样不到5%,大概又12万+观测值),大家可以免费下载。