管理层讨论与分析数据库是针对上市公司财务报告中管理层讨论与分析模块而建立的专业数据库,数据库涵盖了从2010年至今所有上市公司的年报、半年报与经营讨论与分析相关的数据资料,并采用人工智能算法对文本内容涉及的正面、负面词汇进行判断识别。其中,正面词汇和负面词汇的判断基础主要是根据Tim Loughran and Bill McDonald(2011)的英文正负面词典翻译为中文词典,再结合中文语境进行扩充和完善得到。可以有效帮助使用者分析上市公司所披露和预期的经营文本数据。
MD&A文本极具研究价值,研究内容广泛,比如公司治理、审计、风险识别、证券投资、股价预测、公司金融等等。研究人员可通过自然语言处理技术提取和分析MD&A的情感分析、自利性归因、竞争和风险分析、关键词提取和蹭热点分析、可读性分析等等。欢迎会计学、金融学、产业经济学等研究方向的学者购买使用。
1、数据量情况
| 截止日期 | 数据量 |
| 2010-12-31 | 1985 |
| 2011-12-31 | 2198 |
| 2012-12-31 | 2354 |
| 2013-12-31 | 2483 |
| 2014-12-31 | 2603 |
| 2015-12-31 | 2808 |
| 2016-12-31 | 3112 |
| 2017-06-30 | 3318 |
| 2017-12-31 | 3497 |
| 2018-06-30 | 3546 |
| 2018-12-31 | 3604 |
| 2019-06-30 | 3664 |
| 2019-12-31 | 3812 |
| 2020-06-30 | 3934 |
| 2020-12-31 | 4263 |
| 2021-12-31 | 4546 |
| 2022-06-30 | 4706 |
| 2022-12-31 | 5069 |
2、指标说明
| 证券代码 | 以沪、深、北证券交易所公布的证券代码为准。 |
| 证券简称 | 以沪、深、北证券交易所公布的证券简称为准。 |
| 统计截止日期 | XXXX-6-30、XXXX-12-31 |
| 行业代码 | 证监会行业代码 |
| 行业名称 | 证监会行业名称 |
| 管理层讨论与分析内容 | 管理层讨论与分析内容 |
| 与前一年相比文本相似度 | 如统计截止日期为XXXX-06-30对比的是前一年的6-30的半年报,统计截止日期为XXXX-12-31对比的是前一年的12-31的年报。关于中文文本相似度计算,首先使用结巴分词对文本进行处理,分词过程中去掉阿拉伯数字、标点符号、图片表格。接下来使用潜在语义索引(Latent Semantic Indexing, LSI)余弦相似度计算法,分别计算得出 MD&A文本相似度。 |
| 正面词汇数量 | 管理层讨论与分析内容中识别出的正面词汇数量 |
| 负面词汇数量 | 管理层讨论与分析内容中识别出的负面词汇数量 |
| 词汇总量 | 管理层讨论与分析内容中识别出的词汇数量 |
| 句子数量 | 管理层讨论与分析内容中识别出的句子数量 |
| 文字数量 | 管理层讨论与分析内容中识别出的文字数量 |
| 情感语调1 | 计算公式为:(正面词汇数量-负面词汇数量)/词汇总量;数值越大,情感倾向越偏向正面积极。 |
| 情感语调2 | 计算公式为:(正面词汇数量-负面词汇数量)/(正面词汇数量+负面词汇数量);数值越大,情感倾向越偏向正面积极。 |
| 管理层盈利预测类型编码 | 盈利预测类型编码:1=首亏、2=续亏、3=扭亏、4=转亏、5=续盈、6=预增、7=大增、8=略增、9=大降、10=预减、11=略减、12=略降、13=不确定、14=其他、15=增亏、16=减亏 |
| 管理层盈利预测类型 | 业绩预告类型为转亏、续亏、扭亏、续盈、大增、大降、略增、略降、不确定等 |
| 管理层盈利预测发布日期 | 指发布业绩预告公告的日期 |
| 管理层盈利预测偏差 | 计算公式为:(t年的预测净利润值-t年的实际净利润值)/|t年的实际净利润值|;如果t年的预测净利润值是个具体的数值,则取该数值为预测净利润值,如果是个区间估计,则取上下限均值作为预测净利润值(若上下限其中一个为空,则字段为空) |
| 管理层盈利预测修正次数 | 0=业绩首次预告;1=业绩第一次修正;2=业绩第二次修正,修正次数依次递推 |
| 审计意见类型 | 审计后审计事务所对年报内容出具的意见类型。2003年前:1、标准无保留意见2、保留意见3、否定意见4、拒绝发表意见5、无保留意见加说明段6、保留意见加说明段7、否定意见加说明段2003年后:1、标准无保留意见2、保留意见3、否定意见4、无法发表意见5、无保留意见加事项段6、保留意见加事项段 |
| 是否发布可持续经营非标意见 | 0:否;1:是。审计意见中是否由于可持续经营问题被出具非标意见。 |
3、数据截图
4、相关文献
[1] 孟庆斌;杨俊华;鲁冰. 管理层讨论与分析披露的信息含量与股价崩盘风险——基于文本向量化方法的研究. 《中国工业经济》, 2017年12期
[2] 周楷唐;姜舒舒;麻志明. 政治不确定性与管理层自愿业绩预测.《会计研究》, 2017年10期
[3] Xiaobei Huang, Xi Li, Senyo Tse, Jennifer Wu Tucker. The effects of a mixed approach toward management earnings forecasts: Evidence from China. Journal of Business Finance & Accounting, Accepted manuscript online:20 December 2017
5、数据购买
附件包含两份文件
管理层讨论与分析(不包含经营讨论与分析内容).xlsx
管理层讨论与分析.xlsx 包含经营讨论与分析内容的数据比较大800M,放在百度网盘地址上,附件里面提供网盘地址和提取码
包含MD&A文本内容,可通过Python的jieba分词语言对数据进行分词或者进行其他处理,构造更多结构化数据。
管理层讨论与分析(MD&A)数据大全2010-2022年 .zip
(6.07 MB, 需要: RMB 25 元)


雷达卡






京公网安备 11010802022788号







