数据名称:2000-2021土地转让数据
爬虫软件:Stata 16
来源:中国土地市场网
网址:https://www.landchina.com/
截止日期:2021年3月1日
观测值:81万+
变量个数:32(详见后文)
数据特色:添加了经纬度(根据百度地图API)、添加了所在省份、所在城市和所在区县
爬了20来天,终于搞定了!这个数据虽然比不上上次土地交易数据的275万多,但81万也是非常多的。我不得不再一次强调Stata的爬虫能力,curl 还是非常好用的,特别是对付 post 请求。这里爬取的过程中也会有很多难点,比如:网站只提供前 200 页,如何爬取完整的数据呢?单一的 cookie 爬取太多页以后会触动反爬,又要如何应对呢?大量数据的爬取可能由于网络等原因,导致个别数据有问题,检查和补充完整则非常重要,我看到很多人处理的数据很不够精细,包括一些数据库,所以会了方法以后,还要有一颗细致的心和艺术的情怀。艺术的情怀?对,很多代码是需要想象力和创造力的。不太熟悉 curl 的小伙伴建议先百度找一下相关内容简单学习一下。在代码中,我也是加了非常多的注释便于大家理解。当然,并不是所有小伙伴都对爬虫代码感兴趣,如果向直接获取数据也是可以的!为了让大家更好地了解数据,在附件中提供了示例数据(根据总观测值抽样不到3%,大概又2万+观测值),大家可以免费下载查阅。
具体文件说明如下(完整的附件包含如下内容,如果只需要数据,则只包含2):
数据:2000-2021中国土地转让数据
来源:中国土地市场网
网址:https://www.landchina.com/
截止日期:2021年3月1日
观测值:81万+
文件说明:
1.Chinaland2_2021文件夹中的子文件夹均为爬取过程生成的文件夹
2.最终数据:2000-2021土地转让最终数据(含经纬度).dta
3.爬虫代码
(1)土地转让(链接爬取).do——爬取第一层数据代码(主要为了获取每条信息的网址链接)
(2)土地转让(明细爬取).do——爬取第二层数据代码(明细数据)
各年观测值数量(2021年的数据截止到3月1日):
年份 | 观测值 |
2000 | 193 |
2001 | 293 |
2002 | 10,616 |
2003 | 15,573 |
2004 | 29,335 |
2005 | 38,178 |
2006 | 35,276 |
2007 | 55,291 |
2008 | 45,422 |
2009 | 136,378 |
2010 | 108,488 |
2011 | 102,177 |
2012 | 57,965 |
2013 | 58,541 |
2014 | 39,433 |
2015 | 34,046 |
2016 | 24,585 |
2017 | 12,221 |
2018 | 7,064 |
2019 | 2,326 |
2020 | 1,809 |
2021 | 154 |
包含变量说明:
序号 | 变量名称 |
1 | 年份 |
2 | 链接 |
3 | 宗地标识 |
4 | 宗地编号 |
5 | 宗地座落 |
6 | 所在省份(经纬度解析) |
7 | 所在城市(经纬度解析) |
8 | 所在区县(经纬度解析) |
9 | 地址 |
10 | 经度(BD-90坐标系) |
11 | 纬度(BD-90坐标系) |
12 | 行政区名称 |
13 | 行政区名称(处理后) |
14 | 行政区编码 |
15 | 原土地使用权人 |
16 | 现土地使用权人 |
17 | 土地面积(公顷) |
18 | 土地用途 |
19 | 土地使用权类型 |
20 | 土地使用年限 |
21 | 土地利用状况 |
22 | 土地级别 |
23 | 转让方式 |
24 | 转让价格(万元) |
25 | 成交时间 |
26 | 转让单价(万元/平方米) |
27 | 省年度转让单价均值(万元/平方米) |
28 | 市年度转让单价均值(万元/平方米) |
29 | 县年度转让单价均值(万元/平方米) |
30 | 省年度转让单价中值(万元/平方米) |
31 | 市年度转让单价中值(万元/平方米) |
32 | 县年度转让单价中值(万元/平方米) |