更新时间:2023年3月10日(2022年报将于2023年5月份更新)
处理软件:Python 3.10
年度区间:2000-2021
年报数量:48445
说明:本数据为2000-2021中国上市公司年报文本,已经从pdf转为txt格式,方便以本数据为起点进行文本分析及相关指标的构建。本数据特点如下:
(1)爬虫代码:提供详细的Python爬虫代码,方便大家学习掌握爬虫技术;
(2)文件格式:下载的pdf文件已经转化为txt格式,方便后续文本分析处理;
(3)文件过滤:pdf批量下载过程中存在年报更新的情况,已经对年报进行了筛选,剔除了非年报文件并保留了最新更新或更正的年报;
(4)文件名称:原始地址的文件名称并不统一,本人已经将年报文件名称进行了统一,统一格式为“股票代码_年度_发布日期_****年年度报告.txt”,例如,“000001_2022_20220310_2021年年度报告.txt”;
(5)更新服务:2022年年报将于5月份更新(购买本贴5月份免费更新至2022)
由于年报文件较大,本数据采取百度网盘链接形式(详见附件)
文件展示:
代码展示:
2000-2021年中国上市公司年报txt格式(爬虫代码+txt文件)
(76 Bytes, 需要: RMB 87 元)


雷达卡




精品数据集集锦:
京公网安备 11010802022788号







