数据范围为2007-2021年年度报告全文,包含年报的总词频(去停用词,数字,单位,日期,序号等)。
文本分词采用Jieba+自有财经文本词典(30万+),分词精准,命名实体无拆分。
一共包含41569条年报数据。
作者一并提供前瞻性词集文件和统计词频的python代码。
参考文献:
胡楠,薛付婧:前瞻性信息披露与公司未来绩效--基于文本分析和机器学习技术
上市公司年报前瞻性指标词频统计
(76 Bytes, 需要: RMB 98 元)
|
楼主: tilonger
|
1628
0
[经管数据集] 【原创】最新2007-2021年上市公司年报全文【前瞻性指标300词】词频统计 |
|
已卖:277份资源 讲师 14%
-
|
| ||
|
|
扫码京ICP备16021002号-2 京B2-20170662号
京公网安备 11010802022788号
论坛法律顾问:王进律师
知识产权保护声明
免责及隐私声明


