最近制作了重组创造、重组利用数据,对于数据处理过程进行分享,供大家交流。
【变量名称】:重组创造、重组利用
【数据来源】:CNRDS创新专利研究 - 上市公司专利分类号信息 - 上市公司发明申请专利分类号
【数据处理工具】:Python
【数据空间范围】:上市公司本身、子公司、联营公司、合营公司所有的发明专利
【数据时间范围】:和CNRDS官网数据集一致,1993-2022年
【参考文献】:陈立勇, 张洁琼, 曾德明, 徐露允. 知识重组、协作研发深度对企业技术标准制定的影响研究[J]. 管理学报, 2019, 16 (04): 531-540.
【数据处理注意点】:
根据CNRDS数据集进行指标构建。数据集中采用”{}“来分割专利,在每个专利中使用”;“来区分不同的分类号,因此也采用这种方法进行处理。但是数据集合中存在很多异常的数据,对于这部分数据的识别和处理非常关键,建议检查这一步的提取。
对于专利分类号只有一个的专利进行删除
由于创造重组需要对比前五年的专利信息,因此删除了样本中,公司记录未满5年的样本。同时对于A企业来说,假设数据库收录的范围为2015年到2022年的数据,则第一年,即2015年所有的专利默认为重组创造专利,2016年的专利和之前的所有专利对比(即2015年的专利)来求重组创造、2016年的专利和之前的所有专利对比(即2015、2016年的专利)来求重组创造;以此类推。采用这样做的原因是,如果企业2017年上市,那么严格按照5年来计算,那么只有企业2022年的数据,但是显然越靠近现在日期的数据越整齐、重要,因此采用了这种做法。
对于一些年份缺失的样本,在处理时没有进行处理。举例说明,对于A企业来说,样本中拥有年份为2015(当年专利为10个)、2016(当年专利为5个)、2018(当年专利为7个)、2019(当年专利为0个)、2020(当年专利为10个)、2021(当年专利为10个)、2022年的数据(当年专利为10个),其中缺少了2017年的数据,则最终的结果不会有2017年 A公司 的数据;对于2019年,当年专利数为0,则结果中会认为,2019年 A公司重组创造为0、重组利用为0
【数据处理方法】:
①将宽数据转化为长数据。其实这个数据的处理方法和我之前分享过的文章是类似的,不再赘述。【原创】【上市公司突破式创新数据处理经验分享】 - 创新与战略管理 - 经管之家(原人大经济论坛) (pinggu.org)
②在每个专利中使用”;“来区分不同的分类号。但是数据集合中存在很多异常的数据,因此这一步需要加一些其他条件。
这里我增加的条件有(踩过的坑):限定分类号长度,限定分类号首字母,限定分类号不为空
③生成数据组合,建议使用itertools
④建立循环。循环分两层,即按“股票代码”,再按“年份”,由此计算 重组创造


雷达卡





京公网安备 11010802022788号







