数据来源:基于上市公司年报、公告数据整理,及相关省、市数据
数据范围:沪深北证 上市公司 A股,含主板、中小企业板、创业板、科创板、北京证券交易所的服务板块,各个个股的数据
数据期间:(参见其文件名的标识表达了数据年度、或月度日度期间)
主要指标:
证券代码 证券简称 统计截止日期 行业代码 行业名称 行业代码1 行业名称1 管理层讨论与分析内容 与前一年相比文本相似度 正面词汇数量 负面词汇数量 词汇总量 句子数量 文字数量 情感语调1 情感语调2 管理层盈利预测类型编码 管理层盈利预测类型 管理层盈利预测发布日期 管理层盈利预测偏差 管理层盈利预测修正次数 审计意见类型 是否发布可持续经营非标意见
Symbol [证券代码] - 以沪、深、北证券交易所公布的证券代码为准。
ShortName [证券简称] - 以沪、深、北证券交易所公布的证券简称为准。
Enddate [统计截止日期] - XXXX-6-30、XXXX-12-31
IndustryCode [行业代码] - 2012版证监会行业代码
IndustryName [行业名称] - 2012版证监会行业名称
IndustryCode1 [行业代码1] - 中国上市公司协会行业分类代码。
IndustryName1 [行业名称1] - 中国上市公司协会行业分类名称。
ManaDiscAnal [管理层讨论与分析内容] - null
TextualSimilarity [与前一年相比文本相似度] - 如统计截止日期为XXXX-06-30对比的是前一年的6-30的半年报,统计截止日期为XXXX-12-31对比的是前一年的12-31的年报。关于中文文本相似度计算,首先使用结巴分词对文本进行处理,分词过程中去掉阿拉伯数字、标点符号、图片表格。接下来使用潜在语义索引(Latent Semantic Indexing, LSI)余弦相似度计算法,分别计算得出 MD&A文本相似度。
PositiveVocabularyNum [正面词汇数量] - null
NegativeVocabularyNum [负面词汇数量] - null
TotalWordsNum [词汇总量] - null
SentencesNum [句子数量] - null
WordsNum [文字数量] - null
EmotionTone1 [情感语调1] - 计算公式为:(正面词汇数量-负面词汇数量)/词汇总量;数值越大,情感倾向越偏向正面积极。
EmotionTone2 [情感语调2] - 计算公式为:(正面词汇数量-负面词汇数量)/(正面词汇数量+负面词汇数量);数值越大,情感倾向越偏向正面积极。
ProfitForecastTypeID [管理层盈利预测类型编码] - 盈利预测类型编码:1=首亏、2=续亏、3=扭亏、4=转亏、5=续盈、6=预增、7=大增、8=略增、9=大降、10=预减、11=略减、12=略降、13=不确定、14=其他、15=增亏、16=减亏
ProfitForecastType [管理层盈利预测类型] - 业绩预告类型为转亏、续亏、扭亏、续盈、大增、大降、略增、略降、不确定等
ProfitForecastDeclareDate [管理层盈利预测发布日期] - 指发布业绩预告公告的日期
ProfitForecastDeviation [管理层盈利预测偏差] - 计算公式为:(t年的预测净利润值-t年的实际净利润值)/|t年的实际净利润值|;如果t年的预测净利润值是个具体的数值,则取该数值为预测净利润值,如果是个区间估计,则取上下限均值作为预测净利润值(若上下限其中一个为空,则字段为空)
ProfitForecastChangeNum [管理层盈利预测修正次数] - 0=业绩首次预告;1=业绩第一次修正;2=业绩第二次修正,修正次数依次递推
TypeAuditOpin [审计意见类型] - 审计后审计事务所对年报内容出具的意见类型。2003年前:1、标准无保留意见;2、保留意见;3、否定意见;4、拒绝发表意见;5、无保留意见加说明段;6、保留意见加说明段;7、否定意见加说明段。2003年后:1、标准无保留意见;2、保留意见;3、否定意见;4、无法表示意见;5、带有解释性说明的无保留意见;6、保留意见加事项段。
ISSustManaNonStandExpl [是否发布可持续经营非标意见] - 0:否;1:是。审计意见中是否由于可持续经营问题被出具非标意见。
上市公司管理层信息披露情感分析2010-20250630的网盘链接.docx
(38.48 KB, 需要: RMB 159 元)
(1.5GB数据的网盘链接)


雷达卡



京公网安备 11010802022788号







