请选择 进入手机版 | 继续访问电脑版
楼主: zhaozimeng
11924 50

[经管数据集] 【爬虫】1990-2020年中国上市公司高管简历(数据+代码) [推广有奖]

学科带头人

59%

还不是VIP/贵宾

-

威望
0
论坛币
4746 个
通用积分
150.2683
学术水平
55 点
热心指数
58 点
信用等级
51 点
经验
32196 点
帖子
1926
精华
1
在线时间
2382 小时
注册时间
2019-3-22
最后登录
2024-3-29

zhaozimeng 在职认证  发表于 2020-10-20 09:58:15 |显示全部楼层 |坛友微信交流群
相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
爬虫!本数据为1990-2020年中国上市公司高管简历。数据来源为新浪财经。数据截止日期为2020年8月19日。采用Stata爬取,提供完整Stata爬取代码(学习Stata爬虫的好方法)。本数据共有11个变量(详见下文),核心变量是公司高管简历,同时列示高管任职的区间以及所在公司证券代码和年份,方便进行数据匹配和筛选。观测值个数120万+(1208945)。附件包含如下文件:
1.process文件夹:爬取的HTML过程文件(由于占用空间很大,所以就删除了,不影响使用)
2.ManagerCV.dta:爬取后整理的含有部分缺失值的高管简历dta格式数据
3.ManagerCV_new.dta:补充缺失值以后的完整高管简历dta格式数据(使用这个即可)
4.爬取上市公司高管简历.do:Stata完整爬取代码(重要!!!)
5.说明文件:本说明文件
包含变量如下:
序号变量英文名称变量中文名称
1personID人员代码
2year年份
3Stkcd证券代码
4name姓名
5post职务
6cv简历
7http链接
8startday起始日期
9Endday终止日期
10startyear起始年份
11endyear终止年份
Stata爬取上市公司高管简历 (76 Bytes, 需要: RMB 68 元)
展示图片1.png
展示图片2.png

20208月更新数据集集锦

1.(更新)1990-2019年中国上市公司数据(最全!1130个变量,含数据处理)

https://bbs.pinggu.org/thread-9401341-1-1.html

2.(更新)2003-2019中国上市公司公司治理和股权性质数据(126个变量)

https://bbs.pinggu.org/thread-9432575-1-1.html

3.(更新)2000-2019中国上市公司盈余管理数据(含处理过程)

https://bbs.pinggu.org/thread-9417872-1-1.html

4.(更新)中国上市公司基本信息(含所在省市及行政代码经纬度)

https://bbs.pinggu.org/thread-9418143-1-1.html

5.(更新)1990-2020中国上市公司人物特征(含处理过程)

https://bbs.pinggu.org/thread-9363631-1-1.html

6.(更新)2010-2019和讯网上市公司社会责任报告(含代码)

https://bbs.pinggu.org/thread-9538071-1-1.html

7.(更新)2010-2019和讯网上市公司社会责任报告明细(含代码)

https://bbs.pinggu.org/thread-9550203-1-1.html

8.(更新)1995-2020中国上市公司并购重组数据(含代码)

https://bbs.pinggu.org/thread-9574519-1-1.html



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:中国上市公司 中国上市 上市公司 上市公 Manager

楼主,请问爬虫的时候如果遇到反爬怎么办?你这个高管简历爬取的时候又遇到反爬吗?

使用道具

zhaozimeng 在职认证  发表于 2020-10-21 09:06:50 来自手机 |显示全部楼层 |坛友微信交流群
时光雕刻青春 发表于 2020-10-20 15:57
楼主,请问爬虫的时候如果遇到反爬怎么办?你这个高管简历爬取的时候又遇到反爬吗?
有些网站确实会有一些反爬的措施,一般的解决方案就是伪装一下,可以买一些IP,每次随机用一个IP;别爬得太快,可以设置随机数,随机停留几秒钟;多用几个浏览器,随机使用浏览器。总之,就是更接近人浏览网页的模样越不容易被捕获。这个也遇到一些,最后我手动补充上了,不算特别多,还是可以接受的。

使用道具

dm41343 发表于 2020-10-21 10:33:21 |显示全部楼层 |坛友微信交流群
支持,看着楼主的正则表达式很是激动,可是自己就写不出来

使用道具

zhaozimeng 在职认证  发表于 2020-10-21 19:37:19 来自手机 |显示全部楼层 |坛友微信交流群
dm41343 发表于 2020-10-21 10:33
支持,看着楼主的正则表达式很是激动,可是自己就写不出来
主要是看源代码的规律,逐步筛选出自己需要的变量~

使用道具

时光雕刻青春 发表于 2020-10-22 17:06:55 来自手机 |显示全部楼层 |坛友微信交流群
楼主,你这个代码爬取的时候,整个爬取完大概需要多长时间?

使用道具

zhaozimeng 在职认证  发表于 2020-10-23 08:51:24 来自手机 |显示全部楼层 |坛友微信交流群
时光雕刻青春 发表于 2020-10-22 17:06
楼主,你这个代码爬取的时候,整个爬取完大概需要多长时间?
因为这个数据有120多万,所以确实爬了很久,我爬了大概50多个小时,当然也看你的内存~

使用道具

zhaozimeng 在职认证  发表于 2020-10-23 13:46:31 来自手机 |显示全部楼层 |坛友微信交流群
时光雕刻青春 发表于 2020-10-22 17:06
楼主,你这个代码爬取的时候,整个爬取完大概需要多长时间?
另外,循环的时候代码尽可能精简一些,一些数据处理的操作可以在循环完成后一切进行,不然相当于每次循环都要处理一次,会很影响效率~

使用道具

08zjliu 发表于 2020-11-16 11:26:23 |显示全部楼层 |坛友微信交流群
你好楼主,你爬的这些数据有高管籍贯和出生地吗?

使用道具

Iris_Yue 发表于 2020-11-16 21:38:02 |显示全部楼层 |坛友微信交流群
你好,请问你能爬到高管婚育数据吗?

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-3-29 19:28