楼主: wangzhiyu139
1549 0

[经管数据集] 【更新】2001-2024年上市公司年报(txt版+pdf版+巨潮资讯python下载+文本分析代码) [推广有奖]

  • 0关注
  • 9粉丝

已卖:334份资源

副教授

96%

还不是VIP/贵宾

-

威望
0
论坛币
13 个
通用积分
0.7596
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
704 点
帖子
47
精华
0
在线时间
2101 小时
注册时间
2020-10-8
最后登录
2025-12-5

楼主
wangzhiyu139 学生认证  发表于 2025-8-31 17:53:39 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

资源包括:
1. 2001年-2024年A股上市公司年报,pdf版及txt版
数据收集过程如下:(1)python下载pdf年报,2024年年报是2025年8月23日统一下载
(2)python使用pdfminer库将pdf转成txt文本
(3)针对扫描件、图像格式的pdf年报使用嗨格式pdf转换器直接转txt文本,部分加密pdf年报也是使用嗨格式处理,为节约时间2021-2024年年报是直接使用嗨格式pdf转换器转txt文本
(4)对txt文本同一删除换行符和段落符
(5)数据集使用分卷压缩,解压缩的时候注意下
(6)txt年报示例及每年年报数量如下图所示


各年年报数量



年报文本示例



2. 巨潮资讯上市公司年报下载

(1)依据表格下载特定公司特定年份年报(自己创建xlsx表格,第一列Stkcd为公司代码,第二列Year为年份,巨潮资讯能找见相关年报即下载,找不见显示代码)
2)注意,网站部分年报年报名与摘要名一样(较少每年大概20左右),但由于摘要在年报之后,所以代码下载的年报实际是摘要,要自己手动修改(可根据下载后的文件大小判断)。
3)代码直接复制粘贴即可,格式位置等已整理好。
4)本人软件版本python3.8+pycharm 2021.1.2


3. 上市公司年报文本分析(词频统计)python代码
(1)另创建关键词txt文档(1.txt),一个关键词为一行;创建关键词词频统计xls表格,第一行变量名依次是公司代码、年份、各个关键词(关键词顺序与1.txt里一致)。
(2)python代码实现的功能有:(a)将关键词导入jieba字典;(b)根据年报名分出公司代码及年份;(c)txt年报删除空格符及换行符,便于文本分析;(d)关键词识别并计数;(e)将结果传至关键词词频统计xls表格。
(3)代码可直接复制粘贴,格式位置已整理好。
(4)本人软件版本python3.8+pycharm 2021.1.2


txt版年报 (85 Bytes, 需要: RMB 45 元)


pdf版年报 (85 Bytes, 需要: RMB 20 元)


巨潮资讯年报爬虫代码 (85 Bytes, 需要: RMB 10 元)


文本分析代码 (85 Bytes, 需要: RMB 15 元)


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:python下载 python 上市公司年报 上市公司 公司年报
相关提问:上市公司年报
相关内容:上市公司年报文本

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-6 03:04