资源包括:
1. 2001年-2024年A股上市公司年报,pdf版及txt版
数据收集过程如下:(1)python下载pdf年报,2024年年报是2025年8月23日统一下载
(2)python使用pdfminer库将pdf转成txt文本
(3)针对扫描件、图像格式的pdf年报使用嗨格式pdf转换器直接转txt文本,部分加密pdf年报也是使用嗨格式处理,为节约时间2021-2024年年报是直接使用嗨格式pdf转换器转txt文本
(4)对txt文本同一删除换行符和段落符
(5)数据集使用分卷压缩,解压缩的时候注意下
(6)txt年报示例及每年年报数量如下图所示
2. 巨潮资讯上市公司年报下载
(1)依据表格下载特定公司特定年份年报(自己创建xlsx表格,第一列Stkcd为公司代码,第二列Year为年份,巨潮资讯能找见相关年报即下载,找不见显示代码)
(2)注意,网站部分年报年报名与摘要名一样(较少每年大概20左右),但由于摘要在年报之后,所以代码下载的年报实际是摘要,要自己手动修改(可根据下载后的文件大小判断)。
(3)代码直接复制粘贴即可,格式位置等已整理好。
(4)本人软件版本python3.8+pycharm 2021.1.2
3. 上市公司年报文本分析(词频统计)python代码
(1)另创建关键词txt文档(1.txt),一个关键词为一行;创建关键词词频统计xls表格,第一行变量名依次是公司代码、年份、各个关键词(关键词顺序与1.txt里一致)。
(2)python代码实现的功能有:(a)将关键词导入jieba字典;(b)根据年报名分出公司代码及年份;(c)txt年报删除空格符及换行符,便于文本分析;(d)关键词识别并计数;(e)将结果传至关键词词频统计xls表格。
(3)代码可直接复制粘贴,格式位置已整理好。
(4)本人软件版本python3.8+pycharm 2021.1.2
txt版年报
(85 Bytes, 需要: RMB 45 元)
pdf版年报
(85 Bytes, 需要: RMB 20 元)
巨潮资讯年报爬虫代码
(85 Bytes, 需要: RMB 10 元)
文本分析代码
(85 Bytes, 需要: RMB 15 元)


雷达卡




京公网安备 11010802022788号







