楼主: baby01
2449 6

[经管数据集] 管理层讨论与分析(MD&A)数据大全2010-2022年 语料、文本分析Excel格式 [推广有奖]

  • 8关注
  • 37粉丝

已卖:452份资源

博士生

81%

还不是VIP/贵宾

-

威望
0
论坛币
373 个
通用积分
182.2041
学术水平
153 点
热心指数
152 点
信用等级
152 点
经验
11708 点
帖子
245
精华
0
在线时间
410 小时
注册时间
2017-6-15
最后登录
2025-12-25

楼主
baby01 企业认证  发表于 2023-6-27 15:14:57 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
管理层讨论与分析(MD&A)数据大全




管理层讨论与分析数据库是针对上市公司财务报告中管理层讨论与分析模块而建立的专业数据库,数据库涵盖了从2010年至今所有上市公司的年报、半年报与经营讨论与分析相关的数据资料,并采用人工智能算法对文本内容涉及的正面、负面词汇进行判断识别。其中,正面词汇和负面词汇的判断基础主要是根据Tim Loughran and Bill McDonald(2011)的英文正负面词典翻译为中文词典,再结合中文语境进行扩充和完善得到。可以有效帮助使用者分析上市公司所披露和预期的经营文本数据。


MD&A文本极具研究价值,研究内容广泛,比如公司治理、审计、风险识别、证券投资、股价预测、公司金融等等。研究人员可通过自然语言处理技术提取和分析MD&A的情感分析、自利性归因、竞争和风险分析、关键词提取和蹭热点分析、可读性分析等等。欢迎会计学、金融学、产业经济学等研究方向的学者购买使用。




1、数据量情况
截止日期数据量
2010-12-31

1985

2011-12-31

2198

2012-12-31

2354

2013-12-31

2483

2014-12-31

2603

2015-12-31

2808

2016-12-31

3112

2017-06-30

3318

2017-12-31

3497

2018-06-30

3546

2018-12-31

3604

2019-06-30

3664

2019-12-31

3812

2020-06-30

3934

2020-12-31

4263

2021-12-31

4546

2022-06-30

4706

2022-12-31

5069




2、指标说明
证券代码以沪、深、北证券交易所公布的证券代码为准。
证券简称以沪、深、北证券交易所公布的证券简称为准。
统计截止日期XXXX-6-30、XXXX-12-31
行业代码证监会行业代码
行业名称证监会行业名称
管理层讨论与分析内容管理层讨论与分析内容
与前一年相比文本相似度 如统计截止日期为XXXX-06-30对比的是前一年的6-30的半年报,统计截止日期为XXXX-12-31对比的是前一年的12-31的年报。关于中文文本相似度计算,首先使用结巴分词对文本进行处理,分词过程中去掉阿拉伯数字、标点符号、图片表格。接下来使用潜在语义索引(Latent  Semantic Indexing, LSI)余弦相似度计算法,分别计算得出 MD&A文本相似度。
正面词汇数量管理层讨论与分析内容中识别出的正面词汇数量
负面词汇数量管理层讨论与分析内容中识别出的负面词汇数量
词汇总量管理层讨论与分析内容中识别出的词汇数量
句子数量管理层讨论与分析内容中识别出的句子数量
文字数量管理层讨论与分析内容中识别出的文字数量
情感语调1计算公式为:(正面词汇数量-负面词汇数量)/词汇总量;数值越大,情感倾向越偏向正面积极。
情感语调2计算公式为:(正面词汇数量-负面词汇数量)/(正面词汇数量+负面词汇数量);数值越大,情感倾向越偏向正面积极。
管理层盈利预测类型编码盈利预测类型编码:1=首亏、2=续亏、3=扭亏、4=转亏、5=续盈、6=预增、7=大增、8=略增、9=大降、10=预减、11=略减、12=略降、13=不确定、14=其他、15=增亏、16=减亏
管理层盈利预测类型业绩预告类型为转亏、续亏、扭亏、续盈、大增、大降、略增、略降、不确定等
管理层盈利预测发布日期指发布业绩预告公告的日期
管理层盈利预测偏差计算公式为:(t年的预测净利润值-t年的实际净利润值)/|t年的实际净利润值|;如果t年的预测净利润值是个具体的数值,则取该数值为预测净利润值,如果是个区间估计,则取上下限均值作为预测净利润值(若上下限其中一个为空,则字段为空)
管理层盈利预测修正次数0=业绩首次预告;1=业绩第一次修正;2=业绩第二次修正,修正次数依次递推
审计意见类型审计后审计事务所对年报内容出具的意见类型。2003年前:1、标准无保留意见2、保留意见3、否定意见4、拒绝发表意见5、无保留意见加说明段6、保留意见加说明段7、否定意见加说明段2003年后:1、标准无保留意见2、保留意见3、否定意见4、无法发表意见5、无保留意见加事项段6、保留意见加事项段
是否发布可持续经营非标意见 0:否;1:是。审计意见中是否由于可持续经营问题被出具非标意见。




3、数据截图


4、相关文献

[1] 孟庆斌;杨俊华;鲁冰. 管理层讨论与分析披露的信息含量与股价崩盘风险——基于文本向量化方法的研究. 《中国工业经济》, 2017年12期

[2] 周楷唐;姜舒舒;麻志明. 政治不确定性与管理层自愿业绩预测.《会计研究》, 2017年10期

[3] Xiaobei Huang, Xi Li, Senyo Tse, Jennifer Wu Tucker. The effects of a mixed approach toward management earnings forecasts: Evidence from China. Journal of Business Finance & Accounting, Accepted manuscript online:20 December 2017




5、数据购买


附件包含两份文件

管理层讨论与分析(不包含经营讨论与分析内容).xlsx
管理层讨论与分析.xlsx  包含经营讨论与分析内容的数据比较大800M,放在百度网盘地址上,附件里面提供网盘地址和提取码

包含MD&A文本内容,可通过Python的jieba分词语言对数据进行分词或者进行其他处理,构造更多结构化数据。



管理层讨论与分析(MD&A)数据大全2010-2022年 .zip (6.07 MB, 需要: RMB 25 元)


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Excel格式 EXCEL xcel exce 管理层

沙发
爱吸米线的猫(真实交易用户) 学生认证  发表于 2023-11-17 23:21:46
请问这个数据来自CNRD吗?

藤椅
baby01(未真实交易用户) 企业认证  发表于 2023-11-20 18:15:54
爱吸米线的猫 发表于 2023-11-17 23:21
请问这个数据来自CNRD吗?
不是哈      

板凳
Hannah_Bi(未真实交易用户) 发表于 2023-12-24 22:13:14
请问您的管理层讨论与分析是自己爬的吗?

报纸
baikaishui-(未真实交易用户) 发表于 2024-1-18 14:47:39
请问有没有2000年-2009年的数据啊

地板
baby01(未真实交易用户) 企业认证  发表于 2024-1-29 20:56:24
Hannah_Bi 发表于 2023-12-24 22:13
请问您的管理层讨论与分析是自己爬的吗?
不是哈

7
baby01(未真实交易用户) 企业认证  发表于 2024-1-29 20:56:37
baikaishui- 发表于 2024-1-18 14:47
请问有没有2000年-2009年的数据啊
没有            

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-28 04:02