楼主: Philip_ltx
390 1

[其它] 【原创】【上市公司突破式创新数据处理经验分享】 [推广有奖]

  • 0关注
  • 2粉丝

本科生

33%

还不是VIP/贵宾

-

威望
0
论坛币
30 个
通用积分
0.2516
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
677 点
帖子
18
精华
0
在线时间
140 小时
注册时间
2022-3-1
最后登录
2024-5-2

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
最近研究需要构建突破式创新变量数据,感觉和之前分享过双元创新数据有异曲同工之处,因此在之前代码的基础上进行了大幅度修改完成了数据处理,现分享数据处理过程,以便与大家交流。【处理工具】:Python
【数据来源】:CNRDS创新专利研究 - 上市公司专利分类号信息 - 上市公司发明申请专利分类号
【时间范围】:1993-2023年 ,根据CNRDS官网更新
【结果数据内容】:列名依次为 股票代码、会计年度、突破式创新数量、突破式IPC种类、专利总数


【参考文献】:毕晓方;刘晟勇;傅绍正;邢晓辉.盈余平滑影响企业突破式创新吗——外部利益相关者评价的视角[J].会计研究,2022,(12):91-102.
【变量含义】:当企业申请的专利引证了过往没有出现过的专利分类,则表明企业在不熟悉的技术领域进行了实验和探索,新申请的专利创造了新知识,体现出高质量创新的突破性和创造性。即企业之前年份所获得的所有专利放入专利池,若t年专利A主分类号前三位(亦有文献认为将条件设置为 前四位)在企业[0,t-1]年份的专利池中从未出现过,则该专利记为突破式创新。
【数据处理方法】:
核心是针对每个企业构建一个专利池,之后每年的专利和专利池里面的分类号进行比较。其实该变量的构建方法和之前双元创新的方法类似(双元是和5年内比较),但是之前的帖子不是很详细,因此在此记录核心的步骤。


① 转化数据格式。由宽数据转化为长数据。
原始的数据格式如下图,一个格子中有很多专利,不方便我们处理,因此我们在这里要将所有的专利拿出来,即通过分隔符和长宽转化变为下面的格式。
原始数据.png
长数据.png
②提取IPC分类号的前三位。

③计算突破式创新
建立一个多层循环


循环第一层,以"股票代码"为关键词分组,循环每组
  •        对每组以”会计年度“为关键词进行排序,年份小的在前

  •        循环第二层,按照会计年度的顺序进行循环
                     构建一个 list,以便存储ipc分类号
                     针对
企业第一年的所有专利默认为突破式创新(这里也可以不处理第一年数据),并将企业该年所有专利放入list。针对其他年份,通过比较专利是否在list中,如果不在则计为突破式创新;结束后再将该年所有专利放入list。
由此得到结果


【备注】
①一些研究中使用了突破式IPC种类、专利总数,这个比较简单,不在赘述
②一些研究中会使用技术相似度(techproximity)
针对该数据,在长数据转化为宽数据之后以['股票代码','会计年份']为轴,再词将长数据转化为宽数据。如下图(该图为IPC分类号前四位)
即每一行数据变为['企业匹配唯一标识码','年份','A01的数量(ipc分类号前三位)','A02的数量(ipc分类号前三位)','A03的数量(ipc分类号前三位)','B01的数量(ipc分类号前三位)'------],然后将所有的缺失值填补为0。做这一步的目的是,可以得到全部专利矩阵,如A公司有IPC分类号H11,但是C公司没有,做这一步可以是的C公司也有H11的记录,且数值为0。

之后通过numpy进行矩阵运算得到技术相似度指标。
宽数据
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据处理 上市公司 经验分享 经验分 上市公 数据集 数据处理 突破式创新

沙发
微笑百事达123 发表于 2024-1-19 21:25:07 来自手机 |只看作者 |坛友微信交流群
Philip_ltx 发表于 2023-12-19 12:35
最近研究需要构建突破式创新变量数据,感觉和之前分享过双元创新数据有异曲同工之处,因此在之前代码的基础 ...
您好,请问出数据吗

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-2 16:42