【已匹配】1998-2014年工业企业数据库和企业专利匹配结果（观测值近500万，手动清洗）

5关注
898
粉丝

svip3

13年经济金融科研经验,精通数据分析Python/STATA

已卖：4517份资源
好评率：99%
商家信誉：良好

学术权威

63%

（VIP/贵宾）五级

88%

0%

威望: 1 级
论坛币: 48035 个
通用积分: 573.2579
学术水平: 3218 点
热心指数: 3210 点
信用等级: 3200 点
经验: 80906 点
帖子: 9544
精华: 0
在线时间: 3775 小时
注册时间: 2021-1-31
最后登录: 2026-4-19

楼主

国贸小可爱

发表于 2022-10-12 11:28:49 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

附件为1998—2014共17年间我国工业企业数据库与企业专利数据（数据来源是多方检索的，详见下文）的联合匹配结果，已经按企业代码id精确匹配并手动清洗，近500万个观测值（将近十个G的数据大小，只能用百度网盘分享，谢谢大家理解），经我个人以及两位在职教授（研究方向分别为经济统计和关税理论、政策）多次校对、核实，数据质量较高，稳健且显著，具有较高的科研价值，助力大家多发C刊！变量包括1998—2014年工业企业数据库所有变量，并匹配企业专利数据库（数据来源见下文）的几种专利数据，要点如下：1.现有工业企业数据库与各大数据库的匹配存在几大问题，致使基于这些数据集进行的实证分析显著性有限甚至存在严重偏误。首先，对匹配后的数据清洗不足，极端值、异常值甚至经济指标出现负数的情况屡见不鲜，即使是因为工业企业数据库本身存在登记错误和一些偏差，将这些数据进行进一步的清洗，去除、填补异常部分也是必要的，向您承诺，本面板数据集对工业企业数据库本身进行了详尽、充分的清洗和核查，确保稳健性。其次，匹配方法混乱，匹配后不同数据库之间的企业ID并非一一对应甚至匹配错误（A企业在工企数据库的指标对应了B企业的专利数据），这种低级错误无疑会造成回归结果的不一致甚至伪回归；此外，假数据层出不穷，根本不存在1997年和2015年的工业企业数据库，居然有人大肆分享98-14区间外的数据？猜测是用上市公司等数据库编造一定的指标骗取钱财，严重鄙视。个人承诺，此面板数据尽力避免了上述问题，亲测稳健性和显著性有保证，适合各方向的微观计量研究。
2.该面板数据的指标（变量）包括：
（由于涵盖指标为几百个，此处只能列举部分重要指标，实际指标体系极为丰富，比海关数据库要丰富数倍，能想到的指标都有，做任何方向的微观计量研究均可，既可单独当做清洗好、匹配好的工业企业数据库用（其实一个清洗好的工业企业数据库现在至少100块，并且绝对没我处理的“干净”，可能存在问题），也可以结合专利数据做各种创新模型，方法多多，点子多多！）①工业企业典型指标：经营活动产生的现金流入、流出（千元）；投资活动产生的现金流入、流出（千元）；筹资活动产生的现金流入、流出（千元）；研究开发费；是否适用会计准则（虚拟变量，1为执行，0或空值为不适用）；营业成本、营业税金（千元）；公允价值变动收益（千元）；年末从业人员数量合计（男性女性分别为单独变量）；该企业人员的学历构成（研究生、本科、大专、高中、初中以上学历男性、女性分别设置变量）；技术职称数量构成（初级、中级、高级工和初中高级技术职称人员的数量，均以男性女性区分生成单独的数值变量）；国家资本、集体资本、个人资本、法人资本、外商资本（均以千元计）；主营业务收入、利润构成、管理费用等（均以千元计）；固定资产折旧、工业总产值（分为不变价和当年价格计两种指标）等（单位千元）
②企业专利数据相关指标：包括发明专利申请量、发明专利授权量；实用新型的申请和授权量；外观设计的申请和授权量；专利申请和授权总量等企业层面重要专利指标（单位为个数）。
3.数据来源为98-14年的工业企业数据库和专利数据库，部分重要指标的缺失值和极端值是运用Python在国家专利局网站和上市公司数据库内编程手动爬取而得（极个别数据运用的智能填补方法见下文），并与同门师兄师姐以及老师手动进行数据清洗，去除了极端值和异常值，甚至从一定程度上解决了登记错误和上报错误这一无法避免的偏差，工作量巨大，实测进行研究的稳健性极好，适合各个方向的研究，请大家放心使用！
4.个人的研究领域是世经、国贸与应用微观计量，现于某一中游985（也说不定是中下游985...笑）深知一份优质的数据对于学术研究意义重大，因此我对数据质量作背书，承诺“良心”二字，绝不让大家上当受骗，请大家擦亮双眼，get靠谱数据！
5.面板数据形成基本操作思路：
第一步，参照Brandt(2012)的方法处理工企数据和专利数据（这篇文章可以私信我发给大家原版链接PDF，是非常好的一篇应用计量理论操作论文）；
第二步，根据企业名称和年份与专利数据进行匹配；
第三步，根据组织代码和年份与专利数据进行匹配；
第四步，合并第二、三步的匹配数据，并去重；
第五步，手动清洗数据（软件是Stata和Python，对数据的填补综合运用了极大似然插值法、多项式插值法、线性插值法，将每种方法的拟合结果与前后数值进行比对，确保最优插值拟合，工作量极大，效果极好）。反馈.jpg

新鲜出炉的“购买评价”，马赛克部分为这位同学的个人信息，不便公开，数据质量有目共睹，请大家放心购买！

6.诚挚祝大家科研顺利，幸福快乐；也希望经管之家论坛蒸蒸日上，为学术交流搭建温馨友好的平台！

最全面、最稳健的工企数据库+专利数据库匹配结果 (76 Bytes, 需要: RMB 129 元)
7.除了本数据集外，我在论坛还分享了关于绿色全要素生产率的数据，更是好评如潮！欢迎大家关注：

①2004-2020年省际绿色全要素生产率及其分解项、原始数据，附带控制变量和理论推导
https://bbs.pinggu.org/thread-10877683-1-1.html
②2000年-2020年共21年我国所有地级市绿色全要素生产率（GTFP），8799个观测值
https://bbs.pinggu.org/thread-10881416-1-1.html
③2000-2020年地级市绿色全要素生产率原始数据，281个城市5901个观测值
https://bbs.pinggu.org/thread-10911114-1-1.html
④2004-2019年省际绿色全要素生产率及其分解项、原始数据，附带控制变量和理论推导（比第一个数据少一年，便宜一些，按需购买即可）
https://bbs.pinggu.org/thread-10871021-1-1.html

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享1 收藏33 回帖

关键词：工业企业数据库工业企业数企业数据工业企业 500万中国工业企业数据库专利数据库工企库匹配专利数据库工企专利数据库匹配微观数据库

回帖推荐

alyn. 发表于343楼查看完整内容

点赞，数据质量很高，谢谢分享！

pkr627040 发表于338楼查看完整内容

楼主人很好，作为科研小白，问了楼主很多问题，都得到了耐心解答！

pee745068 发表于271楼查看完整内容

我曾经购买网站上的数据集，被坑了，全是错误和乱码；今天发现此数据匹配地很准确，无用的值已经删除，确实优质。

chivasxia 发表于216楼查看完整内容

数据质量非常高！大家可以放心购买

不要做梦22 发表于172楼查看完整内容

已购买！期待好结果！

alyn. 发表于4楼查看完整内容

琢磨了一下午没敢买，最后对比了类似的帖子和其他平台上的数据，还是感觉楼主专业一点；刚刚做了回归，亲测GMM方法和ARIMA模型的结果非常好，价格也够良心！！！开心，去做分组回归了

已有 3 人评分	论坛币	学术水平	热心指数	信用等级	收起理由
日新少年	+ 60				精彩帖子
Evanic		+ 4	+ 4	+ 4	精彩帖子
alyn.	+ 5	+ 1	+ 1	+ 1	精彩帖子

总评分: 论坛币 + 65 学术水平 + 5 热心指数 + 5 信用等级 + 5 查看全部评分

国家社科基金重大项目子课题负责人，主持1项国家自然科学青年基金，发表CSSCI/SSCI/SCI期刊30余篇，多篇论文被《人大复印报刊资料》全文或摘要转载，出版专著2部

沙发

电报机6(未真实交易用户) 发表于 2022-10-12 14:44:26 来自手机

15年数据部分高校已经买了

藤椅

国贸小可爱(未真实交易用户)

发表于 2022-10-12 16:29:19

电报机6 发表于 2022-10-12 14:44
15年数据部分高校已经买了

您好，我一直有关注过工企数据库的动向，之前看到过一个版本的工业企业数据库（2015），但存在极多错误，从ID到数值错误都存在很大问题，几乎是满篇需要修正；目前，据我了解，南开、对外经贸、上财以及华南理工、吉林大学等名校的校内数据库开放到2013，少有开放到2014的，以及EPS等网络数据库也没有更新到2015，能拿到2015的不知道您是哪个学校，如是清北人这个水平，那我们普通学生、青椒也无法企及，如若可以，还希望您分享一下；可以说，到2014是目前最适合做研究、性价比最高的工企数据库了。谢谢您的回复！

已有 1 人评分	论坛币	学术水平	热心指数	信用等级	收起理由
alyn.	+ 5	+ 1	+ 1	+ 1	精彩帖子

总评分: 论坛币 + 5 学术水平 + 1 热心指数 + 1 信用等级 + 1 查看全部评分

板凳

国贸小可爱(未真实交易用户)

发表于 2022-10-12 18:52:41

我是论坛常驻用户，每天会经常登录论坛查看消息和回复；因此，我的数据是包售后的，如有任何问题，私信我一定给您解决！

已有 1 人评分	论坛币	学术水平	热心指数	信用等级	收起理由
alyn.	+ 5	+ 1	+ 1	+ 1	精彩帖子

总评分: 论坛币 + 5 学术水平 + 1 热心指数 + 1 信用等级 + 1 查看全部评分

报纸

国贸小可爱(未真实交易用户)

发表于 2022-10-13 09:39:32

数据由两位教授看过，并且和同门一起仔细核实、清洗、处理，质量有保障，请大家放心购买，购买后若有问题请私信！

已有 1 人评分	论坛币	学术水平	热心指数	信用等级	收起理由
alyn.	+ 5	+ 1	+ 1	+ 1	精彩帖子

总评分: 论坛币 + 5 学术水平 + 1 热心指数 + 1 信用等级 + 1 查看全部评分

地板

国贸小可爱(未真实交易用户)

发表于 2022-10-13 10:07:38

花费近一个月时间，和同门师兄弟认真进行匹配、核实工作，然后拿给老师看，数据质量有保障，可以放心做研究！

已有 1 人评分	论坛币	学术水平	热心指数	信用等级	收起理由
alyn.	+ 5	+ 1	+ 1	+ 1	精彩帖子

总评分: 论坛币 + 5 学术水平 + 1 热心指数 + 1 信用等级 + 1 查看全部评分

7楼

国贸小可爱(未真实交易用户)

发表于 2022-10-13 15:23:41

此数据集既可作为工业企业数据库单独使用，又可以充分利用其中的企业专利各项指标，在智慧金融、数字经济等方向均可大放异彩！

已有 1 人评分	论坛币	学术水平	热心指数	信用等级	收起理由
alyn.	+ 5	+ 1	+ 1	+ 1	精彩帖子

总评分: 论坛币 + 5 学术水平 + 1 热心指数 + 1 信用等级 + 1 查看全部评分

8楼

国贸小可爱(未真实交易用户)

发表于 2022-10-14 21:15:22

做实证分析甚至理论计量，最重要的是数据质量，数据质量不可靠，显著性、稳健性不够，何谈政策建议和启示，又何来边际贡献？本数据质量可靠！

已有 1 人评分	论坛币	学术水平	热心指数	信用等级	收起理由
alyn.	+ 5	+ 1	+ 1	+ 1	精彩帖子

总评分: 论坛币 + 5 学术水平 + 1 热心指数 + 1 信用等级 + 1 查看全部评分

9楼

国贸小可爱(未真实交易用户)

发表于 2022-10-16 11:51:52

以工业企业数据库为代表的微观数据库以其观测值多、数据量大等特点受到期刊编辑的广泛欢迎，向您承诺，本数据在使用期间有任何问题随时私信我，我会以自身经验给您适当建议！

已有 1 人评分	论坛币	学术水平	热心指数	信用等级	收起理由
alyn.	+ 5	+ 1	+ 1	+ 1	精彩帖子

总评分: 论坛币 + 5 学术水平 + 1 热心指数 + 1 信用等级 + 1 查看全部评分

10楼

bless1123(真实交易用户)

发表于 2022-10-16 17:05:57

你们都是用什么电脑运行的呀，这数据太大了运行不了

[经管数据集] 【已匹配】1998-2014年工业企业数据库和企业专利匹配结果（观测值近500万，手动清洗） [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子其他 企业

回帖推荐

浏览过的帖子

浏览过的版块

VIP续费勋章

贵宾1年续费勋章

初级热心勋章

中级热心勋章

高级热心勋章

特级热心勋章

初级信用勋章

20周年荣誉勋章

本版微信群

[经管数据集] 【已匹配】1998-2014年工业企业数据库和企业专利匹配结果（观测值近500万，手动清洗） [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子 其他 企业

回帖推荐

浏览过的帖子

浏览过的版块

VIP续费勋章

贵宾1年续费勋章

初级热心勋章

中级热心勋章

高级热心勋章

特级热心勋章

初级信用勋章

20周年荣誉勋章

本版微信群

扫码加我拉你入群

相关帖子其他企业