【数据来源】:CNRDS创新专利研究 - 上市公司专利分类号信息 - 上市公司发明申请专利分类号
【时间范围】:1993-2023年 ,根据CNRDS官网更新
【结果数据内容】:列名依次为 股票代码、会计年度、突破式创新数量、突破式IPC种类、专利总数
【参考文献】:毕晓方;刘晟勇;傅绍正;邢晓辉.盈余平滑影响企业突破式创新吗——外部利益相关者评价的视角[J].会计研究,2022,(12):91-102.
【变量含义】:当企业申请的专利引证了过往没有出现过的专利分类,则表明企业在不熟悉的技术领域进行了实验和探索,新申请的专利创造了新知识,体现出高质量创新的突破性和创造性。即企业之前年份所获得的所有专利放入专利池,若t年专利A主分类号前三位(亦有文献认为将条件设置为 前四位)在企业[0,t-1]年份的专利池中从未出现过,则该专利记为突破式创新。
【数据处理方法】:
核心是针对每个企业构建一个专利池,之后每年的专利和专利池里面的分类号进行比较。其实该变量的构建方法和之前双元创新的方法类似(双元是和5年内比较),但是之前的帖子不是很详细,因此在此记录核心的步骤。
① 转化数据格式。由宽数据转化为长数据。
原始的数据格式如下图,一个格子中有很多专利,不方便我们处理,因此我们在这里要将所有的专利拿出来,即通过分隔符和长宽转化变为下面的格式。
②提取IPC分类号的前三位。
③计算突破式创新
建立一个多层循环
循环第一层,以"股票代码"为关键词分组,循环每组
- 对每组以”会计年度“为关键词进行排序,年份小的在前
- 循环第二层,按照会计年度的顺序进行循环
针对企业第一年的所有专利默认为突破式创新(这里也可以不处理第一年数据),并将企业该年所有专利放入list。针对其他年份,通过比较专利是否在list中,如果不在则计为突破式创新;结束后再将该年所有专利放入list。
由此得到结果
【备注】
①一些研究中使用了突破式IPC种类、专利总数,这个比较简单,不在赘述
②一些研究中会使用技术相似度(techproximity)
针对该数据,在长数据转化为宽数据之后以['股票代码','会计年份']为轴,再词将长数据转化为宽数据。如下图(该图为IPC分类号前四位)
即每一行数据变为['企业匹配唯一标识码','年份','A01的数量(ipc分类号前三位)','A02的数量(ipc分类号前三位)','A03的数量(ipc分类号前三位)','B01的数量(ipc分类号前三位)'------],然后将所有的缺失值填补为0。做这一步的目的是,可以得到全部专利矩阵,如A公司有IPC分类号H11,但是C公司没有,做这一步可以是的C公司也有H11的记录,且数值为0。
之后通过numpy进行矩阵运算得到技术相似度指标。