楼主: zhaozimeng
5685 31

[金融、财务数据] 【更新至2022】2000-2022中国上市公司年报文本(爬虫代码+txt年报文本) [推广有奖]

学科带头人

86%

还不是VIP/贵宾

-

威望
0
论坛币
194 个
通用积分
157.6250
学术水平
60 点
热心指数
63 点
信用等级
56 点
经验
9956 点
帖子
2241
精华
1
在线时间
2520 小时
注册时间
2019-3-22
最后登录
2024-12-27

20周年荣誉勋章

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
更新!【更新至2022】2000-2022中国上市公司年报文本(爬虫代码+txt年报文本)
更新时间:2023年5月3日(五一假期2022年报txt新鲜出炉)
处理软件:Python 3.10
年度区间:2000-2022
年报数量:53605(其中包含2022年年报txt文件5175个


说明:本数据为2000-2022中国上市公司年报文本,已经从pdf转为txt格式,方便以本数据为起点进行文本分析及相关指标的构建。本数据特点如下:
(1)爬虫代码:提供详细的Python爬虫代码,方便大家学习掌握爬虫技术;
(2)文件格式:下载的pdf文件已经转化为txt格式,方便后续文本分析处理;
(3)文件过滤:pdf批量下载过程中存在年报更新的情况,已经对年报进行了筛选,剔除了非年报文件并保留了最新更新或更正的年报;
(4)文件名称:原始地址的文件名称并不统一,本人已经将年报文件名称进行了统一,统一格式为“股票代码_年度_发布日期_****年年度报告.txt”,例如,“000002_2023_20230331_2022年年度报告.txt”;
(5)更新服务:2023年年报将于2024年5月份更新(后期免费更新升级)
由于年报文件较大,本数据采取百度网盘链接形式(详见附件)

往期数据回顾:https://bbs.pinggu.org/thread-11478201-1-1.html

文件展示:
1.png

代码展示:
2.png

【更新至2022】2000-2022中国上市公司年报文本(爬虫代码+txt文本) (76 Bytes, 需要: RMB 87 元)

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:中国上市公司 上市公司年报 公司年报 上市公司 中国上市

回帖推荐

mokonaPZ 发表于22楼  查看完整内容

数据挺好的,大大方便了文本分析工作~

zhaowill 发表于4楼  查看完整内容

挺好的资料,帮助省掉了很多繁琐的数据收集整理工作
沙发
zhaozimeng 在职认证  发表于 2023-4-3 10:39:15 |只看作者 |坛友微信交流群

精品数据集集锦


一、上市公司基础数据系列


1.【更新至2021】1990-2021中国上市公司数据大全(1369变量 代码+数据)
https://bbs.pinggu.org/thread-11022562-1-1.html

2.【更新至2021】1990-2021上市公司行业分类面板数据(多子库补全)

https://bbs.pinggu.org/thread-11036010-1-1.html

3.【更新至2021】1990-2021上市公司ST、ST*、PT及板块筛选面板数据

https://bbs.pinggu.org/thread-11035952-1-1.html

4.【更新至2021】上市公司中央国企和地方国企及非国企划分(数据+代码)

https://bbs.pinggu.org/thread-11043317-1-1.html

5.【更新至2021】1990-2021上市公司所在地区省市县面板数据

https://bbs.pinggu.org/thread-11029900-1-1.html

6.【更新至2021】1990-2021上市公司股权性质与公司治理数据(195变量)

https://bbs.pinggu.org/thread-11025202-1-1.html
7.【更新至2021】1990-2021上市公司审计相关变量(审计意见、是否是四大审计等)
https://bbs.pinggu.org/thread-11036039-1-1.html

8.【更新至2021】上市公司报表科目和财务指标面板数据(780变量)

https://bbs.pinggu.org/thread-11042158-1-1.html

9.【更新至2021】上市公司公司治理与股权性质数据(195变量)

https://bbs.pinggu.org/thread-11025202-1-1.html

10.【更新至2020】和讯网上市公司社会责任数据(6月16更新 爬虫代码+数据)

https://bbs.pinggu.org/thread-10646429-1-1.html

11.【更新至2020】1999-2020上市公司董监高人数(多子库补齐,含处理代码和数据)

https://bbs.pinggu.org/thread-10856765-1-1.html

12.【更新至2020】新浪财经上市公司高管个人特征及简历数据(最全!含爬虫代码)

https://bbs.pinggu.org/thread-10725251-1-1.html

13.【更新至2021】1990-2021高管(董监高)个人特征数据(代码+数据)

https://bbs.pinggu.org/thread-11139703-1-1.html

14.【更新至2021】上市公司CEO任期与高管个人任职数据(数据+处理代码)

https://bbs.pinggu.org/thread-11152844-1-1.html

15.【更新至2021】上市公司应计盈余管理-修正Jones模型(代码+数据)

https://bbs.pinggu.org/thread-11050622-1-1.html

16.【更新至2021】市公司应计盈余管理-扩展Jones模型+KWL模型(代码+数据)

https://bbs.pinggu.org/thread-11050649-1-1.html

17.【更新至2021】上市公司应计盈余管理-DD模型+BS模型(代码+数据)

https://bbs.pinggu.org/thread-11050676-1-1.html

18.【更新至2021】上市公司真实盈余管理(代码+数据)

https://bbs.pinggu.org/thread-11051932-1-1.html

19.【更新至2021】上市公司投资效率-Richardson模型(代码+数据)

https://bbs.pinggu.org/thread-11055004-1-1.html

20.【更新至2021】上市公司投资效率-Biddle模型(代码+数据)

https://bbs.pinggu.org/thread-11055035-1-1.html

21.【更新至2021】上市公司投资效率-Chen模型(代码+数据)

https://bbs.pinggu.org/thread-11055056-1-1.html

22.【更新至2021】上市公司融资约束KZ指数(代码+数据)

https://bbs.pinggu.org/thread-11043347-1-1.html

23.【更新至2021】上市公司融资约束WW指数(代码+数据)

https://bbs.pinggu.org/thread-11045855-1-1.html

24.【更新至2021】上市公司融资约束SA指数(代码+数据)

https://bbs.pinggu.org/thread-11044276-1-1.html

25.【更新至2021】上市公司融资约束FC指数(代码+数据)

https://bbs.pinggu.org/thread-11047262-1-1.html

26.【更新至2021】上市公司超额雇员两种算法(代码+数据)

https://bbs.pinggu.org/thread-11059040-1-1.html

27.【更新至2021】上市公司超额雇员-拓展模型(代码+数据)

https://bbs.pinggu.org/thread-11059059-1-1.html

28.【更新至2021】上市公司过度负债-分年度Tobit回归(代码+数据)

https://bbs.pinggu.org/thread-11056376-1-1.html

29.【更新至2021】上市公司过度负债-固定效应回归(代码+数据)

https://bbs.pinggu.org/thread-11056389-1-1.html

30.【更新至2021】上市公司超额在职消费(代码+数据)

https://bbs.pinggu.org/thread-11066954-1-1.html

31.【更新至2021】上市公司税收规避(代码+数据)

https://bbs.pinggu.org/thread-11155694-1-1.html

32.【更新至2021】上市公司名义企业所得税税率面板数据(多子库补齐 代码+数据)

https://bbs.pinggu.org/thread-11155655-1-1.html

33.【更新至2021】上市公司管理层权力-主成分分析(代码+数据)

https://bbs.pinggu.org/thread-11154440-1-1.html

34.【更新至2021】上市公司公司治理指数-主成分分析(代码+数据)

https://bbs.pinggu.org/thread-11153841-1-1.html



使用道具

藤椅
zhaozimeng 在职认证  发表于 2023-4-3 10:42:20 |只看作者 |坛友微信交流群

35.【更新至2021】上市公司高管超额薪酬-基础模型(代码+数据)

https://bbs.pinggu.org/thread-11063127-1-1.html

36.【更新至2021】上市公司高管超额薪酬-拓展模型(代码+数据)

https://bbs.pinggu.org/thread-11063505-1-1.html

37.【更新至2021】上市公司破产风险Zscore及其修订指标(代码+数据)

https://bbs.pinggu.org/thread-10909362-1-1.html

38.【更新至2020】上市公司董事会多样性指标构建(代码+数据)

https://bbs.pinggu.org/thread-10911532-1-1.html

39.【更新至2021】上市公司超额商誉(多个指标 代码+数据)
https://bbs.pinggu.org/thread-11064331-1-1.html
40.【更新至2021】上市公司并购溢价指标计算(代码+数据)
https://bbs.pinggu.org/thread-11163395-1-1.html


网络爬虫系列(含详细 Stata 爬虫代码)


41.【更新至2021】2000-2021中国上市公司年报数据(爬虫代码+txt年报文本)https://bbs.pinggu.org/thread-11478201-1-1.html

42.【更新至2020】和讯网上市公司社会责任数据(爬虫代码+数据)

https://bbs.pinggu.org/thread-10646429-1-1.html

43.【土地系列1】2000-2021土地交易数据(数据+代码)

https://bbs.pinggu.org/thread-10491869-1-1.html

44.【土地系列2】2000-2021土地转让数据(数据+代码

https://bbs.pinggu.org/thread-10516466-1-1.html

45.【土地系列3】2000-2021土地抵押数据(数据+代码

https://bbs.pinggu.org/thread-10550946-1-1.html


十二、土地数据系列


46.(更新)2000-2021土地交易数据(275万+ 含爬虫代码)

https://bbs.pinggu.org/thread-10491869-1-1.html

47.(更新)2000-2021土地转让数据(81万+ 含爬虫代码)

https://bbs.pinggu.org/thread-10516466-1-1.html

48.(推荐)2000-2021土地抵押数据(41万+ 含爬虫代码)

https://bbs.pinggu.org/thread-10550946-1-1.html


十三、数字经济系列


49.【更新至2021】2017-2021中国城市数字经济指数(数据+爬虫代码)

https://bbs.pinggu.org/thread-11281532-1-1.html




使用道具

板凳
zhaowill 发表于 2023-4-22 21:20:39 |只看作者 |坛友微信交流群
挺好的资料,帮助省掉了很多繁琐的数据收集整理工作

使用道具

报纸
zhaozimeng 在职认证  发表于 2023-4-23 13:40:49 来自手机 |只看作者 |坛友微信交流群
zhaowill 发表于 2023-5-23 21:41
挺好的资料,帮助省掉了很多繁琐的数据收集整理工作
感谢支持

使用道具

地板
wb123456 发表于 2023-7-9 22:02:56 |只看作者 |坛友微信交流群
2022年年报txt文件5175个,其实只有5046个,咋回事呢

使用道具

7
小菁鲤 发表于 2023-7-10 10:05:22 |只看作者 |坛友微信交流群
包更新数据吗?

使用道具

8
zhaozimeng 在职认证  发表于 2023-7-10 13:45:46 来自手机 |只看作者 |坛友微信交流群
wb123456 发表于 2023-7-9 22:02
2022年年报txt文件5175个,其实只有5046个,咋回事呢
是这样,有一些个别的年报pdf,实在是识别不了,这部分就不能转变成可编辑的txt,但是整体占比非常低

使用道具

9
zhaozimeng 在职认证  发表于 2023-7-11 08:46:38 来自手机 |只看作者 |坛友微信交流群
小菁鲤 发表于 2023-7-10 10:05
包更新数据吗?
嗯嗯,只要更新帖子了,老用户免费升级

使用道具

10
sophie8211 发表于 2023-7-12 18:01:42 |只看作者 |坛友微信交流群
打开txt文件后,感觉有些乱呢~

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
JingGuan2026
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-12-27 14:34