楼主: wangzhiyu139
3902 18

[经管数据集] 2001-2022年上市公司年报(txt及pdf文本年报+巨潮资讯python下载+文本分析代码) [推广有奖]

  • 0关注
  • 9粉丝

已卖:338份资源

教授

1%

还不是VIP/贵宾

-

威望
0
论坛币
15 个
通用积分
0.8796
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
754 点
帖子
47
精华
0
在线时间
2137 小时
注册时间
2020-10-8
最后登录
2026-1-8

楼主
wangzhiyu139 学生认证  发表于 2023-10-12 18:42:15 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
资源包括:
1. 2001年-2022年A股上市公司年报,pdf版及txt版
数据收集过程如下:
(1)python下载pdf年报,2022年年报是2023年6月12日统一下载
(2)python使用pdfminer库将pdf转成txt文本
(3)针对扫描件、图像格式的pdf年报使用嗨格式pdf转换器直接转txt文本,部分加密pdf年报也是使用嗨格式处理,为节约时间2021年及2022年年报是直接使用嗨格式pdf转换器转txt文本
(4)对txt文本同一删除换行符和段落符
(5)数据集使用分卷压缩,解压缩的时候注意下
(6)txt年报示例及每年年报数量如下图所示

屏幕截图(359).png

屏幕截图(454).png

屏幕截图(424).png

2. 巨潮资讯上市公司年报下载
(1)依据表格下载特定公司特定年份年报(自己创建xlsx表格,第一列Stkcd为公司代码,第二列Year为年份,巨潮资讯能找见相关年报即下载,找不见显示代码)
(2)注意,网站部分年报年报名与摘要名一样(较少每年大概20左右),但由于摘要在年报之后,所以代码下载的年报实际是摘要,要自己手动修改(可根据下载后的文件大小判断)。
(3)代码直接复制粘贴即可,格式位置等已整理好。
(4)本人软件版本python3.8+pycharm 2021.1.2

3. 上市公司年报文本分析(词频统计)python代码
(1)另创建关键词txt文档(1.txt),一个关键词为一行;创建关键词词频统计xls表格,第一行变量名依次是公司代码、年份、各个关键词(关键词顺序与1.txt里一致)。
(2)python代码实现的功能有:(a)将关键词导入jieba字典;(b)根据年报名分出公司代码及年份;(c)txt年报删除空格符及换行符,便于文本分析;(d)关键词识别并计数;(e)将结果传至关键词词频统计xls表格。
(3)代码可直接复制粘贴,格式位置已整理好。
(4)本人软件版本python3.8+pycharm 2021.1.2


2001-2022年上市公司年报pdf版 (85 Bytes, 需要: RMB 20 元)
2001-2022年上市公司年报txt版 (85 Bytes, 需要: RMB 50 元)
巨潮资讯——贩卖版.docx (16.2 KB, 需要: RMB 15 元)
文本.docx (14.62 KB, 需要: RMB 20 元)


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:python下载 python 上市公司年报 上市公司 公司年报

屏幕截图(359).png (447.47 KB)

屏幕截图(359).png

沙发
今天你喝水了吗(真实交易用户) 发表于 2023-10-15 10:17:15
老师,我想问问,用您的代码跑出来的都是年报下载未成功的证券代码是乍回事啊

藤椅
wangzhiyu139(未真实交易用户) 学生认证  发表于 2023-10-15 16:50:14
今天你喝水了吗 发表于 2023-10-15 10:17
老师,我想问问,用您的代码跑出来的都是年报下载未成功的证券代码是乍回事啊
代码已验证没问题,可以下载成功,只需按要求创建所需的xlsx表格及修改代码文件路径即可,如有问题请联系1401269233@qq.com

板凳
吴鑫玉(真实交易用户) 学生认证  发表于 2023-10-19 08:35:14
您好,购买了2001-2022年上市公司年报pdf版 ,下载后提示文件损坏打不开,请问该怎么处理?

报纸
wangzhiyu139(未真实交易用户) 学生认证  发表于 2023-10-19 10:41:39 来自手机
吴鑫玉 发表于 2023-10-19 08:35
您好,购买了2001-2022年上市公司年报pdf版 ,下载后提示文件损坏打不开,请问该怎么处理?
采用分卷压缩形式,需要将各个分卷都下载后再同一解压缩

地板
lemonapple0124(真实交易用户) 发表于 2023-12-19 16:29:20 来自手机
wangzhiyu139 发表于 2023-10-12 18:42
资源包括:
1. 2001年-2022年A股上市公司年报,pdf版及txt版
数据收集过程如下:(1)python下载pdf年报, ...
你好,年报购买后,解压时显示文件格式未知或已损坏,无法解压

7
wangzhiyu139(未真实交易用户) 学生认证  发表于 2023-12-19 17:42:34
lemonapple0124 发表于 2023-12-19 16:29
你好,年报购买后,解压时显示文件格式未知或已损坏,无法解压
采用分卷压缩形式,需要将各个分卷都下载后再同一解压缩

8
lemonapple0124(真实交易用户) 发表于 2023-12-22 14:40:26 来自手机
wangzhiyu139 发表于 2023-12-19 17:42
采用分卷压缩形式,需要将各个分卷都下载后再同一解压缩
是下载到同一个文件夹的,用WinRaR解压时显示文件已损坏

9
wangzhiyu139(未真实交易用户) 学生认证  发表于 2023-12-22 16:42:19
lemonapple0124 发表于 2023-12-22 14:40
是下载到同一个文件夹的,用WinRaR解压时显示文件已损坏
我使用的是7-zip压缩的,2022年txt版年报可单独解压缩,之前年份(后缀名为zip.001、zip.002 等等)的需要统一下载后,再统一选中解压缩,不可单独解压缩。若你之前错误解压缩导致文件损坏,需要重新下载后再按正确方式解压缩,如若仍然有问题,可添加qq(1401269233)。

10
lemonapple0124(真实交易用户) 发表于 2023-12-28 16:44:22 来自手机
wangzhiyu139 发表于 2023-12-22 16:42
我使用的是7-zip压缩的,2022年txt版年报可单独解压缩,之前年份(后缀名为zip.001、zip.002 等等)的需要 ...
你好,解压成功以后,2007文件夹中还有2007_1文件夹,两个里面有2007-23,请问是以哪个为准呢

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-9 05:17