张永珅、吴非、袁淳三个版本
持续更新,后续关注我后免费获取更新版本
不管什么时候毕业或者发期刊用到,都能用到最新的数据
【原创整理,严禁转载,转载必究】
参考文献
[1]张永珅,李小波,邢铭强.企业数字化转型与审计定价[J].审计研究,2021(03):62-71.
[2]吴非,胡慧芷,林慧妍等.企业数字化转型与资本市场表现——来自股票流动性的经验证据[J].管理世界,2021,37(07):130-144+10.DOI:10.19744/j.cnki.11-1235/f.2021.0097.
[3]袁淳,肖土盛,耿春晓等.数字化转型与企业分工:专业化还是纵向一体化[J].中国工业经济,2021(09):137-155.DOI:10.19581/j.cnki.ciejournal.2021.09.007.
计算说明
张永珅版本 2001-2022
根据企业数字化转型的定义,本文借鉴祁怀锦等(2020)、何帆等(2019)的研究,以上市公司财务报告附注披露的年末无形资产明细项中与数字化转型相关的部分占无形资产总额的比例来度量企业的数字化水平。具体地,当无形资产明细项包含“软件”“网络”“客户端”“管理系统”“智能平台”等与数字化转型技术相关的关键词以及与此相关的专利时,将该明细项目界定为“数字化技术无形资产”,再对同一公司同年度多项数字化技术无形资产进行加总,计算其占本年度无形资产的比例,即为企业数字化转型程度的代理变量。
吴非版本 2007-2022
根据特征词进行搜索、匹配和词频计数,进而分类归集关键技术方向的词频并形成最终加总词频,从而构建企业数字化转型的指标体系。由于这类数据具有典型的“右偏性”特征,本文将其进行对数化处理,从而得到刻画企业数字化转型的整体指标。在稳健性检验中,本文根据技术的构成差异和运用状况,进行口径细分并重新进行回归检验。
本文依据当前对数字化转型的权威界分,以“ABCD”技术为界,划分出了人工智能(AI)、区块链(BD)、云计算(CC)和大数据(DT)4个子指标;而在实践应用层面(ADT),则以实践中的具体数字化运用关键词为准。
袁淳版本(包含Python代码、词典)2001-2022
本文借助数字经济相关的国家政策语义表述,建立一个相对完备的数字化词典,并利用基于机器学习的文本分析法,构建一个较为全面反映中国上市企业数字化程度的指标。具体步骤如下:
第一步,构建企业数字化术语词典。由于缺乏专门的数字经济领域的术语词典,本文以国家政策语义体系为基础构建企业数字化术语词典。借鉴何帆和刘红霞(2019)等的研究,通过对中央人民政府、工业和信息化部网站进行检索,人工筛选得到2012--2018年期间发布的30份重要的国家层面数字经济相关政策文件以用于提取企业数字化相关的关键词。经Python分词处理及人工识别,最终筛选得到197个频率大于等于5次的企业数字化相关词汇,这些词汇构成了本文的企业数字化术语词典。
第二步,对年报相关语段进行文本分析。本文把上述数字化术语词典中的197 个词汇扩充到Python软件包的“jieba”中文分词库,然后基于机器学习的方法对.上市公司年报“管理层讨论与分析”(MD&A)部分进行文本分析0,统计得到197个与企业数字化相关词汇在年报中出现的频率。
第三步,企业数字化程度指标的构建。考虑到年报MD&A部分文本长度的差异,在提取得到每家上市公司每年年报中各个关键词的出现频率后,本文采用企业数字化相关词汇频数总和除以年报MD&A语段长度衡量微观企业数字化程度(Digital)2。为了表述方便,本文将该指标乘以100。Digital指标数值越大,表示企业数字化程度越高。
数据说明
样本选择:全部A股2001-2022年数据
包含两个版本:一份未剔除、一份剔除金融和ST
每个压缩包都附有初始数据,计算代码,参考文献和最终数据
赠送超值上市基本信息:证券代码、统计截止日期、上市公司ID、证券简称、ABH股交叉码、行业名称、行业代码、中文全称、公司成立日期、首次上市日期、法人代表、注册资本、公司网址、经营范围、主营业务、上市状态、注册具体地址、注册地址所属省份、注册地址所属城市、注册地经度(E)、注册地纬度(N)、公司办公地址、办公地址经度、办公地址纬度、办公地址邮政编码等。
张永坤版本
吴非版本
袁淳版本(包含Python代码、词典)
合并后缩尾描述性统计
相关性分析