| 所在主题: | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 文件名: 示例数据(免费) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 资料下载链接地址: https://bbs.pinggu.org/a-3412013.html | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 附件大小: | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
更新(强烈推荐)!
数据:2000-2021中国土地交易数据(包含全部爬虫代码) 爬虫软件:Stata16(提供爬虫代码) 来源:中国土地市场网 网址:https://www.landchina.com/ 截止日期:2021年3月1日 观测值:275万+ 变量:27终于处理完了,太不容易了!这个数据量实在是太大了!很多人觉得 Stata 的爬虫能力弱,其实不然,中国土地市场网的数据就不太容易,有相对强大的反爬机制,请求模式是 post ,想用 copy 命令的小伙伴赶紧放弃吧!那么,如何爬取这套275万多的数据呢?网站只提供前 200 页,如何爬取完整的数据呢?单一的 cookie 爬取太多页以后会触动反爬,又要如何应对呢?可以好好学习一下代码,当然这里用到了 curl ,不太熟悉的小伙伴建议先百度找一下相关内容简单学习一下。在代码中,我也是加了非常多的注释便于大家理解。当然,并不是所有小伙伴都对爬虫代码感兴趣,如果向直接获取数据也是可以的!为了让大家更好地了解数据,在附件中提供了示例数据(根据总观测值抽样不到5%,大概又12万+观测值),大家可以免费下载。 具体文件说明如下(完整的附件包含如下内容,如果只需要数据,则只包含2和3): 1.Chinaland文件夹中的子文件夹均为爬取过程生成的文件夹 2.最终数据:2000-2021土地交易最终数据(含经纬度).dta 3.分数据(防止大家的电脑内存不够用) (1)2000-2009土地交易数据(含经纬度).dta (2)2010-2015土地交易数据(含经纬度).dta (3)2016-2021土地交易数据(含经纬度).dta 4.爬虫代码 (1)Chinaland2021.do——爬取第一层数据代码(主要为了获取每条信息的网址链接) (2)Chinaland_detail2021.do——爬取第二层数据代码(明细数据) 为了节省空间,爬取过程中生成的数据都删去了,大家还是主要根据代码学习,如果单进程完整的爬取的话,需要两个月(当然,多个电脑多个进程同时爬会成倍提高效率) 各年观测值数量: ------------+---------------------------------------- 年份 | Freq. Percent Cum. ------------+---------------------------------------- 2000 | 1,298 0.05 0.05 2001 | 2,987 0.11 0.16 2002 | 18,128 0.66 0.81 2003 | 25,545 0.93 1.74 2004 | 58,618 2.13 3.87 2005 | 44,298 1.61 5.48 2006 | 60,794 2.21 7.69 2007 | 143,490 5.21 12.90 2008 | 118,489 4.30 17.20 2009 | 140,851 5.12 22.32 2010 | 179,896 6.53 28.85 2011 | 203,599 7.39 36.24 2012 | 195,572 7.10 43.35 2013 | 228,396 8.29 51.64 2014 | 183,732 6.67 58.31 2015 | 163,943 5.95 64.27 2016 | 150,336 5.46 69.73 2017 | 157,541 5.72 75.45 2018 | 215,062 7.81 83.26 2019 | 209,712 7.62 90.87 2020 | 224,505 8.15 99.03 2021 | 26,768 0.97 100.00 ------------+---------------------------------------- Total |2,753,560 100.00 ------------+---------------------------------------- 2021年截止到3月1日,所以少了一些,大家还可以根据代码接着爬取 包含变量说明:
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||
熟悉论坛请点击新手指南
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 下载说明 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
1、论坛支持迅雷和网际快车等p2p多线程软件下载,请在上面选择下载通道单击右健下载即可。 2、论坛会定期自动批量更新下载地址,所以请不要浪费时间盗链论坛资源,盗链地址会很快失效。 3、本站为非盈利性质的学术交流网站,鼓励和保护原创作品,拒绝未经版权人许可的上传行为。本站如接到版权人发出的合格侵权通知,将积极的采取必要措施;同时,本站也将在技术手段和能力范围内,履行版权保护的注意义务。 (如有侵权,欢迎举报) |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||
京ICP备16021002号-2 京B2-20170662号
京公网安备 11010802022788号
论坛法律顾问:王进律师
知识产权保护声明
免责及隐私声明