上市公司年报关键词爬取
2007-2021
管理层讨论与分析MDA 2001-2021
社会责任报告 2006-2020
【注】纯小白版本,已经写好了代码的整体使用说明,可能出现的错误也进行了总结,整体流程已经测试完毕,全流程可运行。
Jieba版本为现有文献常用的步骤,包括停用词的使用等,都在应用在代码当中,同时还提供相关代码的说明文档,保证小白都可以使用!!!!
一、数据说明
①上市公司年报TXT文件(2007-2021)
管理层分析与讨论也是TXT文件,并非常见的excel文件(2001-2021)
社会责任报告为pdf(2006-2020)
②年报关键词爬取的Python代码(两种)
- **基于Jieba分词库进行——适合同一类型的词频总数的统计,比如数字化转型一系列词频的统计。
- **快速基本版本,直接在Python中输出关键词,爬取速度非常快,适合需要每个关键词词频的情况。
③提供各个代码的使用说明
④批量PDF转txt的代码
⑤年报中总字数、总词频数、总句子数
管理层分析与讨论的总字数、词频数、句子数
二、数据展示
1、年报文件