持续更新,后续关注我后免费获取更新版本
不管什么时候毕业或者发期刊用到,都能用到最新的数据
【原创整理,严禁转载,转载必究】
参考文献
[1]胡楠, 张婷, 李效宇 2018. 描述性创新,真实创新活动和盈余持续性--基于文本分析和机器学习. 第十七届中国实证会计国际研讨会报告论文.[1]周明,许言,徐国庆.描述性创新信息披露能够促进企业研发投入吗?——基于A股上市公司的经验证据[J].华东经济管理,2023,37(10):104-115.DOI:10.19629/j.cnki.34-1014/f.221210002.
[1]韦琳,肖梦瑶.描述性创新信息能提高资本市场定价效率吗?——基于股价同步性的分析[J].财经论丛,2022,(08):58-68.DOI:10.13762/j.cnki.cjlc.2022.08.007.
计算说明
| 字段标题 | 字段说明 |
| 证券代码 | 以上海证券交易所和深圳证券交易所公布的证券代码为准。 |
| 证券简称 | 以上海证券交易所和深圳证券交易所公布的公司最新证券简称为准。 |
| 报告期间 | 报告对应会计期间截止日期,格式为“YYYY-MM-DD”。 |
| 报告类型 | 文本数据源类型。 |
目前研究中常用的创新指标主要有研发费用和专利两类。研发费用用于衡量企业创新活动的投入,但由于受到会计准则的制约,研发费用无法很好地反映企业真正的创新水平。专利用于衡量企业创新活动的产出,但专利申请本身需要具备一定条件,并不是所有的企业创新活动都能成为专利。鉴于现有创新指标的局限,学术界近年来对另建创新指标的呼声日益高涨。由此描述性创新指标应运而生,旨在从文本的角度挖掘企业创新活动的相关信息,为研究人员提供新的研究视角。
词频分析法作为目前最为常用的文本指标构建方法,因其可理解性强,易于复制等特点而受到国内外学者广泛关注与应用。不同于简单的词频分析法,WinGo描述性创新指标采用“种子词集+Word Embedding相似词扩充”的方法构建而成,最终得到的指标更为准确、客观与科学。具体来讲,描述性创新指标的构建过程如下:
- (1)由专业的财经文本研究团队通过阅读大量技术创新信息披露的政策法规、研究文献以及上市公司披露的文本信息,制定与技术创新相关的种子词集;
- (2)通过WinGo相似词数据库对种子词集进行词汇扩充。WinGo相似词数据库使用Word Embedding神经网络语言模型,该模型根据上下文语义信息将词汇表示成多维向量,并通过计算向量相似度获得词汇的相似词。WinGo相似词数据库由WinGo团队基于海量财经文本训练而成,所推荐的相似词更加适合财经文本语境,可有效避免人为定义词表的主观性和通用同近义词工具的弱相关性;
- (3)为检验文本指标的有效性,我们邀请业界和学术界专家对描述性创新指标进行核验,并将描述性创新指标和目前文献中的定量创新指标进行交叉验证。具体来说,首先,我们邀请2位学术界和业界专家对描述性创新词集的有效性进行分析,分析结果肯定了描述性创新词集在刻化企业创新水平方面的相关性和全面性。然后,按行业抽取描述性创新词频比例最高的前5家公司,并认真研读其公司财报、公司官网、媒体报道等渠道所披露的公司创新相关信息,将公司在其他渠道树立的形象和描述性创新指标进行比较,结果发现描述性创新指标能够较为准确地衡量企业的创新水平。
最后,选取研发强度和专利作为衡量企业创新水平的传统指标,进行描述性创新指标与传统创新指标的相关性分析。结果发现,描述性创新指标与传统创新指标呈现出较高且显著的正相关关系,并且他们的时间趋势和行业分布总体较为一致,此结果进一步验证了描述性创新指标的有效性。
数据说明
样本选择:全部A股2001-2022年数据
包含两个版本:一份未剔除、一份剔除金融和ST、*ST或PT
注:提供了剔除所需数据和剔除代码,若无需做该项剔除处理,自行删除相关代码重新运行即可
行业参照证监会2012年行业分类标准,制造业用二级行业分类,其他用一级分类来计算
并对连续型变量进行了1%和99%分位数的缩尾处理
每个压缩包都附有初始数据,计算代码,参考文献和最终数据
赠送超值上市基本信息:证券代码、统计截止日期、上市公司ID、证券简称、ABH股交叉码、行业名称、行业代码、中文全称、公司成立日期、首次上市日期、法人代表、注册资本、公司网址、经营范围、主营业务、上市状态、注册具体地址、注册地址所属省份、注册地址所属城市、注册地经度(E)、注册地纬度(N)、公司办公地址、办公地址经度、办公地址纬度、办公地址邮政编码等。(价值30+)
再额外赠送超值上市常用分组指标:是否 ST或PT、是否金融业、资产负债率是否大于1、是否沪深A股、
是否北京A股、行业名称、行业代码、所属省份代码、所属省份、所属城市代码、所属城市、分东部地区、中部地区、西部地区、是否高科技行业、是否重污染行业(价值50+)
数据截图
分年份数据量统计
描述性统计
【稀缺】2001-2022上市公司财务报告全文创新指标表WinGo文构财经文本数据描述性创新.zip
(33.07 MB, 需要: RMB 49 元)


雷达卡




京公网安备 11010802022788号







