- 年份:2000-2023
- 范围:A股上市公司
- 三个版本:企业数字化转型水平(未缩尾未剔除)、企业数字化转型水平(已缩尾未剔除)、企业数字化转型水平(已缩尾已剔除金融STPT)
- 文件格式:Dta格式(使用Stata打开)、Xlsx格式(使用Excel打开)
- 注:提供了剔除所需数据和剔除代码,若无需做该项剔除处理,自行删除相关代码重新运行即可
- 行业参照证监会2012年行业分类标准,制造业用二级行业分类,其他用一级分类来计算并对连续型变量进行了1%和99%分位数的缩尾处理
- 代码格式:do文件(Stata 14/15/16/17/18)
计算说明:
基于上市公司年报文本进行文本分析和词频统计,将数字化转型关键词在年报中的词频作为衡量企业数字化转型水平的代理指标。具体而言,首先整理了上市公司年报,并通过Python的Java PDFbox库提取所有文本内容,并以此作为后续特征词筛选的数据基础。其次,参考一系列以数字化转型为主题的现有文献与数字化转型的管理实践,采用分类整理的方法,形成了特征词谱库,梳理并形成分词词典。最后,对词典涵盖的词语进行搜索、匹配和词频计数,进而分类归集关键技术方向的词频并形成最终加总词频。从而构建企业数字化转型的指标。
具体关键词如下:数字化、数字时代、数字化管理、数字化转型、数字化变革、数字化能力、数字技术、数据资源、产业数字化、人工智能、AI、机器学习、智能组织、区块链、嵌入式分析、分布式计算、云端、云计算、云盘存储、大数据、数据可视化数据中心、物联网、智能制造、数字平台、平台模式、企业平合化自动化、工业互联网、互联工厂、智能组织首席数字官、首席数据食CDO、生态系统。
处理软件:原始数据为使用Python对上市公司年报进行文本分析后获得(jieba分词,停用词表使用哈工大停用词表),后续使用Stata进行整理,最终形成面板数据形式
参考文献:
- 武常岐,张昆贤,周欣雨,等.数字化转型、竞争战略选择与企业高质量发展——基于机器学习与文本分析的证据[J].经济管理,2022,44(04):5-22.
代码:
数据量:
描述性统计:
结果数据
【更新至2023】上市公司数字化转型2000-2023数据年报关键词词频提取Stata
(76 Bytes, 需要: RMB 36 元)


雷达卡




京公网安备 11010802022788号







