楼主: zhaozimeng
12490 51

[经管数据集] (更新)2000-2021土地交易数据(最全,含爬虫代码) [推广有奖]

学科带头人

60%

还不是VIP/贵宾

-

威望
0
论坛币
3346 个
通用积分
150.2683
学术水平
55 点
热心指数
58 点
信用等级
51 点
经验
32987 点
帖子
1943
精华
1
在线时间
2392 小时
注册时间
2019-3-22
最后登录
2024-4-19

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
更新(强烈推荐)!
数据:2000-2021中国土地交易数据(包含全部爬虫代码)
爬虫软件:Stata16(提供爬虫代码)
来源:中国土地市场网
网址:https://www.landchina.com/
截止日期:2021年3月1日
观测值:275万+
变量:27终于处理完了,太不容易了!这个数据量实在是太大了!很多人觉得 Stata 的爬虫能力弱,其实不然,中国土地市场网的数据就不太容易,有相对强大的反爬机制,请求模式是 post ,想用 copy 命令的小伙伴赶紧放弃吧!那么,如何爬取这套275万多的数据呢?网站只提供前 200 页,如何爬取完整的数据呢?单一的 cookie 爬取太多页以后会触动反爬,又要如何应对呢?可以好好学习一下代码,当然这里用到了 curl ,不太熟悉的小伙伴建议先百度找一下相关内容简单学习一下。在代码中,我也是加了非常多的注释便于大家理解。当然,并不是所有小伙伴都对爬虫代码感兴趣,如果向直接获取数据也是可以的!为了让大家更好地了解数据,在附件中提供了示例数据(根据总观测值抽样不到5%,大概又12万+观测值),大家可以免费下载。
网址展示.png
具体文件说明如下(完整的附件包含如下内容,如果只需要数据,则只包含2和3):
1.Chinaland文件夹中的子文件夹均为爬取过程生成的文件夹
2.最终数据:2000-2021土地交易最终数据(含经纬度).dta
3.分数据(防止大家的电脑内存不够用)
(1)2000-2009土地交易数据(含经纬度).dta
(2)2010-2015土地交易数据(含经纬度).dta
(3)2016-2021土地交易数据(含经纬度).dta
4.爬虫代码
(1)Chinaland2021.do——爬取第一层数据代码(主要为了获取每条信息的网址链接)
(2)Chinaland_detail2021.do——爬取第二层数据代码(明细数据)
为了节省空间,爬取过程中生成的数据都删去了,大家还是主要根据代码学习,如果单进程完整的爬取的话,需要两个月(当然,多个电脑多个进程同时爬会成倍提高效率)
各年观测值数量:
------------+----------------------------------------
       年份 |      Freq.     Percent        Cum.
------------+----------------------------------------
       2000 |      1,298        0.05        0.05
       2001 |      2,987        0.11        0.16
       2002 |     18,128        0.66        0.81
       2003 |     25,545        0.93        1.74
       2004 |     58,618        2.13        3.87
       2005 |     44,298        1.61        5.48
       2006 |     60,794        2.21        7.69
       2007 |    143,490        5.21       12.90
       2008 |    118,489        4.30       17.20
       2009 |    140,851        5.12       22.32
       2010 |    179,896        6.53       28.85
       2011 |    203,599        7.39       36.24
       2012 |    195,572        7.10       43.35
       2013 |    228,396        8.29       51.64
       2014 |    183,732        6.67       58.31
       2015 |    163,943        5.95       64.27
       2016 |    150,336        5.46       69.73
       2017 |    157,541        5.72       75.45
       2018 |    215,062        7.81       83.26
       2019 |    209,712        7.62       90.87
       2020 |    224,505        8.15       99.03
       2021 |     26,768        0.97      100.00
------------+----------------------------------------
      Total |  2,753,560      100.00

------------+----------------------------------------
2021年截止到3月1日,所以少了一些,大家还可以根据代码接着爬取
包含变量说明:
序号变量
1年份
2电子监管号
3所在省份
4所在城市
5所在区县
6经度
7纬度
8项目名称
9项目位置
10面积(公顷)
11土地来源
12土地用途
13供地方式
14土地使用年限
15行业分类
16土地级别
17成交价格(万元)
18土地使用权人
19约定容积率下限
20约定容积率上限
21约定交地时间
22约定开工时间
23约定竣工时间
24批准单位
25合同签订日期
26地址
27链接

示例数据(免费) (76 Bytes) 2000-2021土地交易数据 (76 Bytes, 需要: RMB 168 元)
(更新)2000-2021土地交易数据(最全,含爬虫代码)(1) (76 Bytes, 需要: RMB 199 元)

2020年中国出让土地分布.png 2021年中国出让土地分布.png
代码展示.png





二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:交易数据 土地交易 2010-2015 percent Cookie 土地交易 土地出让 土地市场 爬虫代码 Stata爬虫

回帖推荐

pangzhuo1960 发表于13楼  查看完整内容

看看看看赞赞赞赞赞
已有 1 人评分论坛币 收起 理由
日新少年 + 160 精彩帖子

总评分: 论坛币 + 160   查看全部评分

沙发
zhaozimeng 在职认证  发表于 2021-3-17 10:25:16 |只看作者 |坛友微信交流群
更新数据集集锦
1.(更新)1990-2019年中国上市公司数据(最全!1130个变量,含数据处理)
https://bbs.pinggu.org/thread-9401341-1-1.html
2.(更新)2003-2019中国上市公司公司治理和股权性质数据(126个变量)
https://bbs.pinggu.org/thread-9432575-1-1.html
3.(更新)2000-2019中国上市公司盈余管理数据(含处理过程)
https://bbs.pinggu.org/thread-9417872-1-1.html
4.(更新)中国上市公司基本信息(含所在省市及行政代码经纬度)
https://bbs.pinggu.org/thread-9418143-1-1.html
5.(更新)1990-2020中国上市公司人物特征(含处理过程)
https://bbs.pinggu.org/thread-9363631-1-1.html
6.(更新)2010-2019和讯网上市公司社会责任报告(含代码)
https://bbs.pinggu.org/thread-9538071-1-1.html
7.(更新)2010-2019和讯网上市公司社会责任报告明细(含代码)
https://bbs.pinggu.org/thread-9550203-1-1.html
8.(更新)1995-2020中国上市公司并购重组数据(含代码)
https://bbs.pinggu.org/thread-9574519-1-1.html
9.【爬虫】1990-2020年中国上市公司高管简历(数据+代码)
https://bbs.pinggu.org/thread-10017058-1-1.html
10.(更新)1990-2019上市公司财务报表与指标季度数据(含代码)
https://bbs.pinggu.org/thread-10257876-1-1.html
11.【更新】上市公司基本资料(含数据处理和详细经纬度) 
https://bbs.pinggu.org/thread-10423733-1-1.html

使用道具

藤椅
zhaozimeng 在职认证  发表于 2021-3-17 13:53:09 来自手机 |只看作者 |坛友微信交流群
zhaozimeng 发表于 2021-3-17 10:25
更新数据集集锦:
1.(更新)1990-2019年中国上市公司数据(最全!1130个变量,含数据处理)
http ...
2000-2021中国土地交易数据(含代码),也欢迎大家关注其他主题~

使用道具

板凳
zhaozimeng 在职认证  发表于 2021-3-20 09:40:48 来自手机 |只看作者 |坛友微信交流群
zhaozimeng 发表于 2021-3-17 13:53
2000-2021中国土地交易数据(含代码),也欢迎大家关注其他主题~
土地交易的数据根据百度地图添加了经纬度,相对来说还是非常齐全的,275万+的数据仅有258个缺失值,当然,也可能出现一些解析错误,绝大多数还是靠谱的。另外,添加了土地对应的省、市、县,方便进一步计算平均值等指标或与其他数据合并。

使用道具

报纸
zhaozimeng 在职认证  发表于 2021-3-21 10:07:33 来自手机 |只看作者 |坛友微信交流群
zhaozimeng 发表于 2021-3-20 09:40
土地交易的数据根据百度地图添加了经纬度,相对来说还是非常齐全的,275万+的数据仅有258个缺失值,当然, ...
顶一下下~

使用道具

地板
zhaozimeng 在职认证  发表于 2021-3-23 12:13:31 来自手机 |只看作者 |坛友微信交流群
zhaozimeng 发表于 2021-3-17 13:53
2000-2021中国土地交易数据(含代码),也欢迎大家关注其他主题~
很多小伙伴咨询坐标系的问题,这里统一回复一下:百度地图是百度BD-90经纬度坐标系,即GCJ-02基础上加密的结果;高德地图和谷歌地图在中国内地区域使用的坐标系是GCJ-02坐标系下的经纬度,两者会有一定的差异。本贴使用的坐标系是百度BD-90经纬度坐标系。

使用道具

7
zhaozimeng 在职认证  发表于 2021-3-23 12:59:28 来自手机 |只看作者 |坛友微信交流群
zhaozimeng 发表于 2021-3-17 10:25
更新数据集集锦:
1.(更新)1990-2019年中国上市公司数据(最全!1130个变量,含数据处理)
http ...
提示:关于坐标系——百度地图是百度BD-90经纬度坐标系,即GCJ-02基础上加密的结果;高德地图和谷歌地图在中国内地区域使用的坐标系是GCJ-02坐标系下的经纬度,两者会有一定的差异。本贴使用的坐标系是百度BD-90经纬度坐标系。

使用道具

8
zhaozimeng 在职认证  发表于 2021-4-6 11:12:08 来自手机 |只看作者 |坛友微信交流群
zhaozimeng 发表于 2021-3-17 10:25
更新数据集集锦:
1.(更新)1990-2019年中国上市公司数据(最全!1130个变量,含数据处理)
http ...
土地市场网土地交易数据~

使用道具

9
dm41343 发表于 2021-4-7 10:04:35 |只看作者 |坛友微信交流群
zhaozimeng 发表于 2021-4-6 11:12
土地市场网土地交易数据~

使用道具

10
zhaozimeng 在职认证  发表于 2021-4-8 09:38:48 来自手机 |只看作者 |坛友微信交流群
dm41343 发表于 2021-4-7 10:04
又被你发现了,哈哈

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-20 18:41