请选择 进入手机版 | 继续访问电脑版
楼主: a1010967149
8738 150

[经管数据集] 【推荐 2021更新】数字化转型MDA词频分析2001-2021 管理层经营讨论与分析词频占比 [推广有奖]

  • 1关注
  • 86粉丝

学术权威

35%

还不是VIP/贵宾

-

威望
0
论坛币
617 个
通用积分
5.5301
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
109351 点
帖子
4609
精华
0
在线时间
8200 小时
注册时间
2020-3-25
最后登录
2024-3-29

a1010967149 学生认证  发表于 2022-9-26 15:31:39 |显示全部楼层 |坛友微信交流群
相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

数字化转型MDA词频分析

2001-2021


全流程构建以及最新版本袁淳数据:https://bbs.pinggu.org/thread-11243044-1-1.html




1、数据来源:

基于上市公司年报种的管理层分析与讨论部分

2、时间跨度:

2001-2021年

3、参考文献:

[1]袁淳,肖土盛,耿春晓,盛誉.数字化转型与企业分工:专业化还是纵向一体化[J].中国工业经济,2021(09):137-155.

[2]吴非,胡慧芷,林慧妍,任晓怡.企业数字化转型与资本市场表现——来自股票流动性的经验证据[J].管理世界,2021,37(07):130-144+10
















第一步,构建企业数字化术语词典。由于缺乏专门的数字经济领域的术语词典,本文以国家政策语义体系为基础构建企业数字化术语词典。借鉴何帆和刘红霞(2019)等的研究,通过对中央人民ZF、工业和信息化部网站进行检索,人工筛选得到2012—2020年期间发布的30份重要的国家层面数字经济相关政策文件以用于提取企业数字化相关的关键词。经Python分词处理及人工识别,最终筛选得到197个频率大于等于5次的企业数字化相关词汇,这些词汇构成了本文的企业数字化术语词典。


第二步,对年报相关语段进行文本分析。本文把上述数字化术语词典中的197个词汇扩充到Python软件包的“jieba”中文分词库,然后基于机器学习的方法对上市公司年报“管理层讨论与分析”(MD&A)部分进行文本分析,统计得到197个与企业数字化相关词汇在年报中出现的频率。


第三步,企业数字化程度指标的构建。考虑到年报MD&A部分文本长度的差异,在提取得到每家上市公司每年年报中各个关键词的出现频率后,本文采用企业数字化相关词汇频数总和除以年报MD&A语段长度衡量微观企业数字化程度(Digital)。为了表述方便,本文将该指标乘以100。Digital指标数值越大,表示企业数字化程度越高。


注意:

①2001-2020的数据为直接在wingo数据平台提取的关键词,输出结果以及整个的处理流程也全部给大家附上。

②2021的数据则是采用jieba分词程序进行爬取,之后再进行的词频比例的统计
③在袁淳197词汇的基础上加入了吴非的词频,最终得到238多词,都有具体的词频数和词典



4、数据内容

1、python程序 包含怎么使用停用词以及关键词的提取

2、输出的词频数量文件+30份重要的国家层面数字经济相关政策文

3、MDA的基本信息  总词数 总句数 总字数(2001-2021)

   5万多份MDA的txt文档,方便大家进行爬取使用(2001-2021)

4、最终结果 可以直接通过STATA 匹配使用的结果


4.PNG

5.PNG
6.PNG
7.PNG
8.PNG




MDA文件(全部已经单独从年报文本中分离出来了)

1.PNG

2.PNG




MDA文本 (76 Bytes, 需要: RMB 39 元)


数字化转型MDA词频比例(袁淳) (76 Bytes, 需要: RMB 45 元)


合集:


两者集合 (76 Bytes, 需要: RMB 70 元)







二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数字化转型 数字化 管理层 digital 工业和信息化部

不善学习 发表于 2022-10-1 10:57:57 |显示全部楼层 |坛友微信交流群
亲,关于你的数据说明有一个小疑惑:第3点”在袁淳175词汇的基础上加入了吴非的词频“,但原文最终获取得到的是197个词频大于5的词汇,为什么你这里只有175个呢?

使用道具

a1010967149 学生认证  发表于 2022-10-1 11:39:57 |显示全部楼层 |坛友微信交流群
不善学习 发表于 2022-10-1 10:57
亲,关于你的数据说明有一个小疑惑:第3点”在袁淳175词汇的基础上加入了吴非的词频“,但原文最终获取得到 ...
描述错误

使用道具

不善学习 发表于 2022-10-1 15:33:13 |显示全部楼层 |坛友微信交流群
a1010967149 发表于 2022-10-1 11:39
描述错误
就是前面打错了是么?

使用道具

a1010967149 学生认证  发表于 2022-10-4 12:12:06 |显示全部楼层 |坛友微信交流群
不善学习 发表于 2022-10-1 15:33
就是前面打错了是么?
对,请看最新描述

使用道具

a1010967149 学生认证  发表于 2022-10-4 12:12:10 |显示全部楼层 |坛友微信交流群
不善学习 发表于 2022-10-1 15:33
就是前面打错了是么?
对,请看最新描述

使用道具

a1010967149 学生认证  发表于 2022-10-4 12:44:55 |显示全部楼层 |坛友微信交流群
不善学习 发表于 2022-10-1 15:33
就是前面打错了是么?
是的,请看最新调整

使用道具

15661246180 发表于 2022-10-16 15:45:37 |显示全部楼层 |坛友微信交流群
a1010967149 发表于 2022-10-4 12:44
是的,请看最新调整
请问一下最新调整的数据是什么样?

使用道具

a1010967149 学生认证  发表于 2022-10-22 10:26:01 |显示全部楼层 |坛友微信交流群
高质数据欢迎大家咨询!!!

使用道具

a1010967149 学生认证  发表于 2022-11-8 12:59:44 |显示全部楼层 |坛友微信交流群

高质数据欢迎大家咨询!!!
高质数据欢迎大家咨询!!!

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-3-29 14:16