➤整理过程
➤解析MD&A报告文本
➤定义“数字化转型”关键词
➤MD&A文本预处理
➤统计数字化转型词频明细
➤计算3种数字化转型、各维度水平
➤数据下载
第一步,解析MD&A报告文本
由于不同年份上市公司年报的格式设置有所不同,因此各年MD&A文本的提取方式有所变化
[url=]MD&A文本提取方式:[/url]
➤2014年及以前主要在“董事会报告”中提取
➤2015年主要在“管理层讨论与分析”中提取
➤2016年-2020年主要从“经营情况讨论与分析”中提取
➤2021-2023年主要在“管理层讨论与分析”中提取
年份 | MD&A报告数 |
2001 | 764 |
2002 | 1054 |
2003 | 1200 |
2004 | 1317 |
2005 | 1328 |
2006 | 1419 |
2007 | 1544 |
2008 | 1600 |
2009 | 1749 |
2010 | 2102 |
2011 | 2340 |
2012 | 2466 |
2013 | 2512 |
2014 | 2628 |
2015 | 2821 |
2016 | 3114 |
2017 | 3490 |
2018 | 3585 |
2019 | 3794 |
2020 | 4239 |
2021 | 4588 |
2022 | 5117 |
2023 | 5328 |
第二步,定义“数字化转型”关键词
[url=]数字化转型A[/url]:参考《管理世界》中吴非(2021)的做法,团队对人工智能技术、大数据技术、云计算技术、区块链技术、数字技术运用五个维度76个数字化相关词频进行统计
[url=]数字化转型B[/url]:参考《财贸经济》中赵宸宇(2021)的做法,对数字技术应用、互联网商业模式、智能制造、现代信息系统四个维度99个数字化相关词频进行统计
[url=]数字化转型C[/url]:参考《经济研究》中甄红线(2023)的做法,对技术分类、组织赋能、数字化应用等类别下139个数字化相关词频进行统
第三步,MD&A文本预处理
首先,爬取上市公司的公开年报,保存为pdf文件;其次,读取pdf格式的年报,提取MD&A报告文本,并将文本转为规范化的面板数据;再次,统计MD&A报告的文本长度,以及只保留中英文部分的文本长度
第四步,统计数字化转型词频明细
构建企业数字化术语词典,将词汇扩充到python的jieba库,并去除停顿词。[url=]统计314个“数字化转型”关键词出现的次数[/url],并剔除关键词前存在否定词汇的词语:无、非、别、不、没、无、忽、莫、否、没有、还没、毫无、无需、无关
第五步,计算3种数字化转型、各维度水平
参考三位学者各自的“数字化转型”子维度的词频明细,加总词频和,并统计各个子维度,分别记为[url=]数字化转型程度A、数字化转型程度B、数字化转型程度C[/url]
[/url]


雷达卡


京公网安备 11010802022788号







