更新时间:2024年5月13日
处理软件:Python 3.11
年度区间:2001-2023变量个数:64(详见样本数据——免费下载查阅)
年报数量:58448(筛选后58237)
说明:本数据为2001-2023上市公司年报文本分析与数字经济词频统计。本套数据包含内容如下:
1.2001-2023上市公司年报文本(txt格式,pdf较大可向楼主索取)
2.数字经济词频统计与指标构建全过程及代码
3.2001-2023数字经济词频统计数据(xlsx格式+dta格式——含各个维度及维度内部数字经济词典词频统计)
由于数据量较大,数据采取百度网盘链接形式,大家可以先在附件中免费下载查看样本数据。
数字经济词频统计构建过程:
1.巨潮年报爬虫代码 —— 爬取上市公司年报(pdf格式);
2.PDF转换TXT ——批量将爬取的上市公司年报从 pdf 格式转化为 txt 格式;
3.筛选并标准化年报文本 ——规范年报 txt 格式 方便后续操作,这一步其实很繁琐但却非常关键,原始的年报名字五花八门并不规范,而且年报经常会有更正、更新等,需要保留最新版本的年报,标准化之后格式为“股票代码_年度_发布日期_****年年度报告.txt”,例如,“000002_2024_20240331_2023年年度报告.txt”。4.jieba分词代码——根据 jieba 库,并结合数字经济字典进行分词,本数据数字经济字典参考文献——唐要家等,数字经济、市场结构与创新绩效,中国工业经济2022年第10期。
数字经济选用以下四方面关键词:一是反映数据要素存量,包括大数据、数据集成、数据融合、数据信息、数据管理、数据资产、数字化;二是反映数据开发能力,包括自动化、5G、智能、机器人、机器学习、3D 打印、3D 技术、3D 工具、AI、物联网、边缘计算、云计算、云服务、云端、数字科技、数字技术、计算机技术、信息时代、信息化、信息技术、信息集成、信息通信;三是反映数据驱动商业应用,包括 O2O、B2B、C2C、P2P、C2B、B2C、电子技术、电子科技、线上、网络、线上线下、互联网、电子商务、跨境电商、电商平台、智慧时代、智慧建设、智慧业务、数字运营、数字终端、数字经济、数字体系、数字供应链、数字营销;四是反映数据价值变现,包括数字货币、区块链、数字贸易。
5.数字经济词频统计代码 ——根据分词结果进行数字经济各个维度的词频统计;
6.年报文本总词频统计 ——统计 txt 年报各上市公司各个年度的总词频;
7.年报文本总字数统计 ——统计 txt 年报各上市公司各个年度的总字数;
8.合并数字经济词频统计数据 ——合并第5步中的数字经济词频统计数据;
9.合并数字经济词频与年报文本字数和词频——将第8步中的数字经济词频数据与第6、7步的年报总词频和总字数数据合并,并生成最终面板数据。
各年度观测值:
| 年度 | Freq. | Percent | Cum. |
| 2000 | 5 | 0.01 | 0.01 |
| 2001 | 1,009 | 1.73 | 1.74 |
| 2002 | 1,078 | 1.85 | 3.59 |
| 2003 | 1,141 | 1.96 | 5.55 |
| 2004 | 1,233 | 2.12 | 7.67 |
| 2005 | 1,236 | 2.12 | 9.79 |
| 2006 | 1,318 | 2.26 | 12.05 |
| 2007 | 1,438 | 2.47 | 14.52 |
| 2008 | 1,500 | 2.58 | 17.1 |
| 2009 | 1,649 | 2.83 | 19.93 |
| 2010 | 1,997 | 3.43 | 23.36 |
| 2011 | 2,232 | 3.83 | 27.19 |
| 2012 | 2,355 | 4.04 | 31.24 |
| 2013 | 2,400 | 4.12 | 35.36 |
| 2014 | 2,519 | 4.33 | 39.68 |
| 2015 | 2,717 | 4.67 | 44.35 |
| 2016 | 3,010 | 5.17 | 49.52 |
| 2017 | 3,386 | 5.81 | 55.33 |
| 2018 | 3,485 | 5.98 | 61.31 |
| 2019 | 3,702 | 6.36 | 67.67 |
| 2020 | 4,173 | 7.17 | 74.84 |
| 2021 | 4,686 | 8.05 | 82.88 |
| 2022 | 4,892 | 8.4 | 91.28 |
| 2023 | 5,076 | 8.72 | 100 |
| Total | 58,237 | 100 |
描述性统计:
| variable | N | mean | sd | min | p50 | max |
| 年报总字数 | 58237 | 139298 | 51486 | 47 | 137981 | 774674 |
| 年报总词频 | 58237 | 33673 | 13056 | 8 | 33353 | 134167 |
| 维度1_数据要素存量 | 58237 | 4.4 | 13.67 | 0 | 0 | 378 |
| 维度2_数据开发能力 | 58237 | 33.17 | 76.98 | 0 | 8 | 1705 |
| 维度3_数据驱动商业应用 | 58237 | 17.58 | 38.85 | 0 | 6 | 768 |
| 维度4_数据价值变现 | 58237 | 0.23 | 2.31 | 0 | 0 | 126 |
| 数字经济词频合计 | 58237 | 55.38 | 103.77 | 0 | 18 | 1715 |
数据代码展示:
样本数据(抽样3%免费下载)
(76 Bytes)
2001-2023年报分析与数字经济词频数据(全套代码+数据)
(76 Bytes, 需要: RMB 186 元)
【更多帖子链接】:点击此处


雷达卡




精品数据集集锦2022:
补充更新2023:
京公网安备 11010802022788号







