持续更新,后续关注我后免费获取更新版本
不管什么时候毕业或者发期刊用到,都能用到最新的数据
【原创整理,严禁转载,转载必究】
参考文献
[1]罗勇根,杨金玉,陈世强.空气污染、人力资本流动与创新活力——基于个体专利发明的经验证据[J].中国工业经济, 2019(10):19.DOI:10.19581
计算说明
人力资本流动(Flow)。若发明人当年发生流动则取值为 1,未发生流动则为 0。对于可能存在的重名问题,结合专利申请的地址和专利分类号识别专利发明人重名问题,并将存在重名的样本剔除。具体地,如果发明人同一年所申请的专利位于不同的城市,并且所申请的专利不属于同一个专利大类分类号(发明和实用新型专利为 IPC 分类号,外观设计为 LOC 分类号),则认为出现重名情况。其中,IPC 分类号和 LOC 分类号均来自国家知识产权局。同时,还根据发明人姓名跟踪了发明人流动的方向,举例说明,如果同一个发明人在不同的年份(如 2005 年和 2006 年)出现在两个不同的上市公司(A 和 B),如果 2006 年后该发明人不再出现在 A 企业,同时 2006 年前 B 企业也没有该发明人,则认为发明人在 A 和 B 之间发生了流动。此外,还根据发明人流动前后空气质量的差异,区分了的发明人流动方向的变量,Flow_up表示发明人流向空气质量较好的城市,此时 Flow_up 取值为 1,否则为 0;Flow_down 表示发明人流向空气质量更差的城市,此时 Flow_down 取值为 1,否则为 0。
Stata代码操作步骤
第一步:专利数据清洗(构建基础库)在计算之前,需对原始专利数据进行标准化处理,以保证创新产出计量的准确性。
筛选标准:仅保留“授权专利”,剔除仅在申请阶段的记录。类型选择:通常保留“发明”和“实用新型”专利(若包含外观设计,需特殊处理分类号)。去重处理:根据申请号、公开公告号和股票代码进行去重,移除重复公告的记录。
字符清理:统一处理空值(如将 "NA" 替换为空),清理行政区划名称(如“市”字样)。
第二步:结构化拆分(处理“多对多”关系)由于一份专利可能包含多个发明人和多个 IPC 分类号,需要将其转为“单发明人-单专利”的长面板格式。IPC 拆分:使用 split 与 reshape 命令,提取专利的大类分类号(IPC 前 3 位或外观设计的 LOC 前两位)。发明人拆分:将分号隔开的多个发明人拆解为独立行,以便追踪每一个个体的流动轨迹。
第三步:重名剔除(身份唯一性识别)这是研究的关键点,通过多维约束识别是否为同一发明人:判定逻辑:若同一发明人在同一年内申请的专利位于不同城市,且属于不同专利大类,则视为“重名”并将其样本剔除。目的:确保后续追踪到的“企业间流动”是真实的个体行为,而非同名同姓者的误判。
第四步:识别流动行为 (Flow)通过追踪发明人在不同年份所属的上市公司(股票代码)来界定流动
第五步:构建流动方向变量 (Flow_up / Flow_down)结合外部城市环境变量,分析人才流动的动机
数据说明
样本选择:全部A股2000-2024年数据 上市公司-发明人-年份面板数据
赠送超值上市基本信息:证券代码、统计截止日期、上市公司ID、证券简称、ABH股交叉码、行业名称、行业代码、中文全称、公司成立日期、首次上市日期、法人代表、注册资本、公司网址、经营范围、主营业务、上市状态、注册具体地址、注册地址所属省份、注册地址所属城市、注册地经度(E)、注册地纬度(N)、公司办公地址、办公地址经度、办公地址纬度、办公地址邮政编码等。
再额外赠送超值上市常用分组指标:是否 ST或PT、是否金融业、资产负债率是否大于1、是否沪深A股、
是否北京A股、行业名称、行业代码、所属省份代码、所属省份、所属城市代码、所属城市、分东部地区、中部地区、西部地区、是否高科技行业、是否重污染行业
原创申明作为长期扎根于此的原创数据提供方,我们始终秉持严谨的治学态度。遗憾的是,近期发现部分投机账号对本团队的心血进行像素级抄袭(包括数据及计算文案说明)。
在此郑重提醒广大同仁:学术研究,数据为基。抄袭者可以复制文字,却无法复制数据背后的清洗逻辑与学术洞察。若使用来源不明的盗版数据,可能因数据缺失、错误而导致研究偏误,影响实证结论的可靠性。请务必认准官方唯一渠道,确保您的研究建立在扎实的数据基础之上。
数据底色:纯手工、多轮审定本套数据集并非简单的镜像导出,而是我们课题组在深度科研过程中沉淀下来的“干货”:
深度溯源:以主流上市公司数据库为基准,对核心指标进行了跨平台的手工比对与补缺。
专家背书:数据处理方案经过导师指导,并由多位应用经济学在读博士、硕士进行多轮逻辑交叉校对,确保符合实证论文的投稿要求。
工匠精神:整理成本(时间、专业知识)远超目前的分享定价,旨在服务真正有科研需求的学友。
数据截图
描述性统计
【重磅权威】2000-2024年上市公司人力资本流动数据和Stata代码参考顶刊文献
(76 Bytes, 需要: RMB 98 元)


雷达卡





京公网安备 11010802022788号







