经管之家送您一份
应届毕业生专属福利!
求职就业群
感谢您参与论坛问题回答
经管之家送您两个论坛币!
+2 论坛币
一、数据概况
本数据集基于自然语言处理技术构建,涵盖2008-2023年间中国A股5562家上市公司的创新活动测度指标,形成有效观测值5.05万条。数据核心指标包含:
- 基础计量指标:股票代码/公司简称/年份/全文总词数/关键词词频数/关键词词频自然对数
- 创新关键词体系:构建包含39个维度的创新词库,覆盖研发全生命周期(研究→开发→产业化)与创新类型(技术创新/管理创新/模式创新)
二、测度方法
本数据库构建方法参照谢佳松等(2025)发表于《统计研究》的文本分析框架,具体流程包含:
1. 语料处理:提取上市公司年报MD&A(管理层讨论与分析)文本
2. 词典构建:通过TF-IDF算法和专家验证,建立三级创新关键词体系
3. 指标计算:创新强度=Σ(创新关键词词频)/总词数×100%
4. 有效性验证:与研发支出、专利数量等结构化数据相关系数达0.68-0.82
三、创新关键词分类体系
1. 基础研发类:研发/开发/创新/研究/专利/发明等
2. 技术升级类:升级/新工艺/新技术/迭代/革新等
3. 战略转型类:转型/变革/新模式/新业态/推陈出新等
4. 产学协同类:产学研/科技攻关/知识产权等
5. 产品创新类:新品/独创/首创/原创/新一代等
6. 材料能源类:新能源/新材料/新技术等
四、学术应用价值
本数据库突破传统财务指标局限,实现:
1. 创新前导性:较研发支出数据提前1-2年反映创新动向
2. 战略解码:通过关键词结构分析企业创新战略倾向
3. 行业对标:构建跨行业可比创新强度指数
五、文献依据
谢佳松,樊嘉诚,林建浩.我国上市公司创新活动的测度——基于文本分析的方法[J].统计研究,2025,42(02):70-83.
注:本数据已通过年报文本可比性检验、关键词敏感性分析等质量验证,为研究企业创新战略提供量化支持。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
|