经管之家送您一份
应届毕业生专属福利!
求职就业群
感谢您参与论坛问题回答
经管之家送您两个论坛币!
+2 论坛币
爬虫!本数据为中国情报网A股上市企业数据,时点为2020年3月。本帖目的在于帮助大家学会如何用Stata进行爬虫(而非数据本身)。目前,爬虫应用较多是使用Python和R语言,但是很多做实证研究和计量分析的小伙伴对Stata情有独钟,那么Stata是否完成高效快捷的爬虫任务呢?其实,Stata也可以完成大多数格式的爬虫,并不会麻烦特别多,本帖也是希望大家可以学习一点Stata爬虫的知识,如正则表达式等。本文提供了全部的Stata代码,并对其中的命令进行了讲解和注释(见下图),同时,本帖只是象征性收取1元钱,希望更多的人可以学习到 附件采取网盘链接方式,大家遇到爬虫的一些问题可以相互交流讨论,欢迎大家留言。
附件包含文件说明:
1.process文件夹:为数据处理过程中的生成的文件夹(可以忽略)
2.中国A股上市公司数据(原).dta:爬取的原始dta数据
3.中国A股上市公司数据(新).dta:爬取的处理之后的dta数据(最终)
4.中国A股上市公司数据(新).xlsx:爬取的处理之后导出的xlsx数据(最终)
5.爬虫代码.do:为爬取的Stata代码(重要!!!)
6.说明.txt:本说明文件
提示:中国情报网A股上市企业数据的省份和城市变量原始数据存在一定的问题,应该是城市和区县,笔者这里并没有修改,保持和原始数据一致,原因在于本帖的目的主要帮助大家学会用Stata爬取数据!
Stata爬取上市公司数据(含代码)
(76 Bytes, 需要: RMB 1 元)
楼主2020年8月更新数据集集锦 : 1.(更新)1990-2019年中国上市公司数据(最全!1130个变量,含数据处理) https://bbs.pinggu.org/thread-9401341-1-1.html 2.(更新)2003-2019中国上市公司公司治理和股权性质数据(126个变量) https://bbs.pinggu.org/thread-9432575-1-1.html 3.(更新)2000-2019中国上市公司盈余管理数据(含处理过程) https://bbs.pinggu.org/thread-9417872-1-1.html 4.(更新)中国上市公司基本信息(含所在省市及行政代码经纬度) https://bbs.pinggu.org/thread-9418143-1-1.html 5.(更新)1990-2020中国上市公司人物特征(含处理过程) https://bbs.pinggu.org/thread-9363631-1-1.html 6.(更新)2010-2019和讯网上市公司社会责任报告(含代码) https://bbs.pinggu.org/thread-9538071-1-1.html 7.(更新)2010-2019和讯网上市公司社会责任报告明细(含代码) https://bbs.pinggu.org/thread-9550203-1-1.html 8.(更新)1995-2020中国上市公司并购重组数据(含代码) https://bbs.pinggu.org/thread-9574519-1-1.html
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
|