搜索
人大经济论坛 附件下载

附件下载

所在主题:
文件名:  示例数据(免费)
资料下载链接地址: https://bbs.pinggu.org/a-3412013.html
附件大小:
76 Bytes   举报本内容
更新(强烈推荐)!
数据:2000-2021中国土地交易数据(包含全部爬虫代码)
爬虫软件:Stata16(提供爬虫代码)
来源:中国土地市场网
网址:https://www.landchina.com/
截止日期:2021年3月1日
观测值:275万+
变量:27终于处理完了,太不容易了!这个数据量实在是太大了!很多人觉得 Stata 的爬虫能力弱,其实不然,中国土地市场网的数据就不太容易,有相对强大的反爬机制,请求模式是 post ,想用 copy 命令的小伙伴赶紧放弃吧!那么,如何爬取这套275万多的数据呢?网站只提供前 200 页,如何爬取完整的数据呢?单一的 cookie 爬取太多页以后会触动反爬,又要如何应对呢?可以好好学习一下代码,当然这里用到了 curl ,不太熟悉的小伙伴建议先百度找一下相关内容简单学习一下。在代码中,我也是加了非常多的注释便于大家理解。当然,并不是所有小伙伴都对爬虫代码感兴趣,如果向直接获取数据也是可以的!为了让大家更好地了解数据,在附件中提供了示例数据(根据总观测值抽样不到5%,大概又12万+观测值),大家可以免费下载。

具体文件说明如下(完整的附件包含如下内容,如果只需要数据,则只包含2和3):
1.Chinaland文件夹中的子文件夹均为爬取过程生成的文件夹
2.最终数据:2000-2021土地交易最终数据(含经纬度).dta
3.分数据(防止大家的电脑内存不够用)
(1)2000-2009土地交易数据(含经纬度).dta
(2)2010-2015土地交易数据(含经纬度).dta
(3)2016-2021土地交易数据(含经纬度).dta
4.爬虫代码
(1)Chinaland2021.do——爬取第一层数据代码(主要为了获取每条信息的网址链接)
(2)Chinaland_detail2021.do——爬取第二层数据代码(明细数据)
为了节省空间,爬取过程中生成的数据都删去了,大家还是主要根据代码学习,如果单进程完整的爬取的话,需要两个月(当然,多个电脑多个进程同时爬会成倍提高效率)
各年观测值数量:
------------+----------------------------------------
年份 | Freq. Percent Cum.
------------+----------------------------------------
2000 | 1,298 0.05 0.05
2001 | 2,987 0.11 0.16
2002 | 18,128 0.66 0.81
2003 | 25,545 0.93 1.74
2004 | 58,618 2.13 3.87
2005 | 44,298 1.61 5.48
2006 | 60,794 2.21 7.69
2007 | 143,490 5.21 12.90
2008 | 118,489 4.30 17.20
2009 | 140,851 5.12 22.32
2010 | 179,896 6.53 28.85
2011 | 203,599 7.39 36.24
2012 | 195,572 7.10 43.35
2013 | 228,396 8.29 51.64
2014 | 183,732 6.67 58.31
2015 | 163,943 5.95 64.27
2016 | 150,336 5.46 69.73
2017 | 157,541 5.72 75.45
2018 | 215,062 7.81 83.26
2019 | 209,712 7.62 90.87
2020 | 224,505 8.15 99.03
2021 | 26,768 0.97 100.00
------------+----------------------------------------
Total |2,753,560 100.00

------------+----------------------------------------
2021年截止到3月1日,所以少了一些,大家还可以根据代码接着爬取
包含变量说明:
序号变量
1年份
2电子监管号
3所在省份
4所在城市
5所在区县
6经度
7纬度
8项目名称
9项目位置
10面积(公顷)
11土地来源
12土地用途
13供地方式
14土地使用年限
15行业分类
16土地级别
17成交价格(万元)
18土地使用权人
19约定容积率下限
20约定容积率上限
21约定交地时间
22约定开工时间
23约定竣工时间
24批准单位
25合同签订日期
26地址
27链接













    熟悉论坛请点击新手指南
下载说明
1、论坛支持迅雷和网际快车等p2p多线程软件下载,请在上面选择下载通道单击右健下载即可。
2、论坛会定期自动批量更新下载地址,所以请不要浪费时间盗链论坛资源,盗链地址会很快失效。
3、本站为非盈利性质的学术交流网站,鼓励和保护原创作品,拒绝未经版权人许可的上传行为。本站如接到版权人发出的合格侵权通知,将积极的采取必要措施;同时,本站也将在技术手段和能力范围内,履行版权保护的注意义务。
(如有侵权,欢迎举报)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

GMT+8, 2026-1-7 09:58