更新时间:2023年5月5日
处理软件:Python 3.10
年度区间:2001-2022变量个数:64(详见样本数据——免费下载查阅)
年报数量:53787
说明:本数据为2001-2022上市公司年报文本分析与数字经济词频统计。本套数据包含内容如下:1.2001-2022上市公司年报文本(txt格式)
2.数字经济词频统计与指标构建全过程及代码
3.2001-2022数字经济词频统计数据(xlsx格式+dta格式——含各个维度及维度内部数字经济词典词频统计)
由于数据量较大,数据采取百度网盘链接形式,并且省去了中间过程数据(如需要购买后可向楼主索取),大家可以先在附件中免费下载查看样本数据。
数字经济词频统计构建过程:
1.巨潮年报爬虫代码 —— 爬取上市公司年报(pdf格式);
2.PDF转换TXT ——批量将爬取的上市公司年报从 pdf 格式转化为 txt 格式;
3.筛选并标准化年报文本 ——规范年报 txt 格式 方便后续操作,这一步其实很繁琐但却非常关键,原始的年报名字五花八门并不规范,而且年报经常会有更正、更新等,需要保留最新版本的年报,标准化之后格式为“股票代码_年度_发布日期_****年年度报告.txt”,例如,“000002_2023_20230331_2022年年度报告.txt”。
4.jieba分词代码——根据 jieba 库,并结合数字经济字典进行分词,本数据数字经济字典参考文献——唐要家等,数字经济、市场结构与创新绩效,中国工业经济2022年第10期。
数字经济选用以下四方面关键词:一是反映数据要素存量,包括大数据、数据集成、数据融合、数据信息、数据管理、数据资产、数字化;二是反映数据开发能力,包括自动化、5G、智能、机器人、机器学习、3D 打印、3D 技术、3D 工具、AI、物联网、边缘计算、云计算、云服务、云端、数字科技、数字技术、计算机技术、信息时代、信息化、信息技术、信息集成、信息通信;三是反映数据驱动商业应用,包括 O2O、B2B、C2C、P2P、C2B、B2C、电子技术、电子科技、线上、网络、线上线下、互联网、电子商务、跨境电商、电商平台、智慧时代、智慧建设、智慧业务、数字运营、数字终端、数字经济、数字体系、数字供应链、数字营销;四是反映数据价值变现,包括数字货币、区块链、数字贸易。
5.数字经济词频统计代码 ——根据分词结果进行数字经济各个维度的词频统计;
6.年报文本总词频统计 ——统计 txt 年报各上市公司各个年度的总词频;
7.年报文本总字数统计 ——统计 txt 年报各上市公司各个年度的总字数;
8.合并数字经济词频统计数据 ——合并第5步中的数字经济词频统计数据;
9.合并数字经济词频与年报文本字数和词频——将第8步中的数字经济词频数据与第6、7步的年报总词频和总字数数据合并,并生成最终面板数据。
各年度观测值:
年度 | Freq. | Percent | Cum. |
2001 | 1,009 | 1.88 | 1.88 |
2002 | 1,078 | 2 | 3.88 |
2003 | 1,141 | 2.12 | 6 |
2004 | 1,233 | 2.29 | 8.29 |
2005 | 1,235 | 2.3 | 10.59 |
2006 | 1,318 | 2.45 | 13.04 |
2007 | 1,437 | 2.67 | 15.71 |
2008 | 1,500 | 2.79 | 18.5 |
2009 | 1,649 | 3.07 | 21.57 |
2010 | 1,996 | 3.71 | 25.28 |
2011 | 2,231 | 4.15 | 29.43 |
2012 | 2,354 | 4.38 | 33.8 |
2013 | 2,400 | 4.46 | 38.26 |
2014 | 2,519 | 4.68 | 42.95 |
2015 | 2,717 | 5.05 | 48 |
2016 | 3,010 | 5.6 | 53.59 |
2017 | 3,407 | 6.33 | 59.93 |
2018 | 3,506 | 6.52 | 66.45 |
2019 | 3,737 | 6.95 | 73.4 |
2020 | 4,269 | 7.94 | 81.33 |
2021 | 4,922 | 9.15 | 90.48 |
2022 | 5,119 | 9.52 | 100 |
Total | 53,787 | 100 |
描述性统计:
variable | N | mean | sd | min | p50 | max |
数字经济词频 | 53787 | 51.664 | 98.893 | 0 | 17 | 1705 |
数据展示: