上市公司年报关键词爬取 2007-2021
【注】纯小白版本,已经写好了代码的整体使用说明,可能出现的错误也进行了总结,整体流程已经测试完毕,全流程可运行。
一、数据说明
①包含2007-2021年所有的年报txt文件
②年报关键词爬取的Python代码(两种)
(1)基于Jieba分词库进行——适合同一类型的词频总数的统计,比如数字化转型一系列词频的统计。
(2)快速基本版本,直接在Python中输出关键词,爬取速度非常快,适合需要每个关键词词频的情况。
③提供各个代码的使用说明
④批量PDF转txt的代码
⑤年报中总字数、总词频数、总句子数
二、数据展示