数字化转型MDA词频分析
2001-2021
全流程构建以及最新版本袁淳数据:https://bbs.pinggu.org/thread-11243044-1-1.html
1、数据来源:
基于上市公司年报种的管理层分析与讨论部分
2、时间跨度:
2001-2021年
3、参考文献:
[1]袁淳,肖土盛,耿春晓,盛誉.数字化转型与企业分工:专业化还是纵向一体化[J].中国工业经济,2021(09):137-155.
[2]吴非,胡慧芷,林慧妍,任晓怡.企业数字化转型与资本市场表现——来自股票流动性的经验证据[J].管理世界,2021,37(07):130-144+10
第一步,构建企业数字化术语词典。由于缺乏专门的数字经济领域的术语词典,本文以国家政策语义体系为基础构建企业数字化术语词典。借鉴何帆和刘红霞(2019)等的研究,通过对中央人民ZF、工业和信息化部网站进行检索,人工筛选得到2012—2020年期间发布的30份重要的国家层面数字经济相关政策文件以用于提取企业数字化相关的关键词。经Python分词处理及人工识别,最终筛选得到197个频率大于等于5次的企业数字化相关词汇,这些词汇构成了本文的企业数字化术语词典。
第二步,对年报相关语段进行文本分析。本文把上述数字化术语词典中的197个词汇扩充到Python软件包的“jieba”中文分词库,然后基于机器学习的方法对上市公司年报“管理层讨论与分析”(MD&A)部分进行文本分析,统计得到197个与企业数字化相关词汇在年报中出现的频率。
第三步,企业数字化程度指标的构建。考虑到年报MD&A部分文本长度的差异,在提取得到每家上市公司每年年报中各个关键词的出现频率后,本文采用企业数字化相关词汇频数总和除以年报MD&A语段长度衡量微观企业数字化程度(Digital)。为了表述方便,本文将该指标乘以100。Digital指标数值越大,表示企业数字化程度越高。
注意:
①2001-2020的数据为直接在wingo数据平台提取的关键词,输出结果以及整个的处理流程也全部给大家附上。
②2021的数据则是采用jieba分词程序进行爬取,之后再进行的词频比例的统计
③在袁淳197词汇的基础上加入了吴非的词频,最终得到238多词,都有具体的词频数和词典
4、数据内容
1、python程序 包含怎么使用停用词以及关键词的提取
2、输出的词频数量文件+30份重要的国家层面数字经济相关政策文
3、MDA的基本信息 总词数 总句数 总字数(2001-2021)
5万多份MDA的txt文档,方便大家进行爬取使用(2001-2021)
4、最终结果 可以直接通过STATA 匹配使用的结果