文本分析
—关键词提取/关键句输出/指标数值提取
2007-2022
上市公司年报/管理层分析与讨论
(功能持续更新)
可实现功能:
1.提取关键词频并输出excel文档(输出含有文件名的词频面板数据)
2.提取关键词所在的句子并生成所有相关句子的txt文档(输出所有含关键词的句子)
3.提取某个关键指标后的数值(如研发费用:11111,便可以直接提取并输出)
1.提供的文本类型:
- 上市公司年报2007-2022 txt版本
- 上市公司年报管理层分析与讨论部分MD&A 2000-2022 txt版本
2.提供的代码:
- 词频爬取代码(代码说明里有详细介绍)
- 关键词所在句子输出(此代码直接输出该公司所有包括该关键词的句子)
- 提取某指标数值(比如研发费用,会直接输出公司-年份-数值的面板)(由于不同企业可能指标名称不一,因此还需要多尝试多个指标)
- python相关软件(提供下载)
- 超详细使用教程(手把手教学,小白可做)
- 常用的停用词列表
4.代码说明:
①关于词频提取代码:
本数据集提供两个类型的词频爬取代码:
第一,基于jieba库进行爬取的代码,该代码也是文章使用文本分析最为常用的代码
第二,直接提取代码,此代码常用于爬取较长的词汇,如工业互联网,数字化转型平台等长词
②关于年报:
本数据集提取了A股上市公司年报,通过pdf转换成了txt,但其中包含转码失败,请知悉
③关于教程
基本上每个步骤都有使用的说明,包括软件的操作以及代码的基本解释以及常见的问题说明
④关于结果
会输出股票代码以及年份的面板数据
5.部分数据展示:

文本分析—关键词提取
(76 Bytes, 需要: RMB 100 元)


雷达卡




京公网安备 11010802022788号







