楼主: 国贸小可爱
19038 302

[经管数据集] 【已匹配】1998-2014年工业企业数据库和企业专利匹配结果(观测值近500万,手动清洗) [推广有奖]

院士

31%

还不是VIP/贵宾

-

威望
1
论坛币
1626 个
通用积分
78.3951
学术水平
1044 点
热心指数
1045 点
信用等级
1042 点
经验
118206 点
帖子
4620
精华
0
在线时间
1799 小时
注册时间
2021-1-31
最后登录
2024-4-24

初级热心勋章 中级热心勋章 高级热心勋章 特级热心勋章 初级信用勋章

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
附件为1998—2014共17年间我国工业企业数据库与企业专利数据(数据来源是多方检索的,详见下文)的联合匹配结果,已经按企业代码id精确匹配并手动清洗,近500万个观测值(将近十个G的数据大小,只能用百度网盘分享,谢谢大家理解),经我个人以及两位在职教授(研究方向分别为经济统计和关税理论、政策)多次校对、核实,数据质量较高,稳健且显著,具有较高的科研价值,助力大家多发C刊!变量包括1998—2014年工业企业数据库所有变量,并匹配企业专利数据库(数据来源见下文)的几种专利数据,要点如下:1.现有工业企业数据库与各大数据库的匹配存在几大问题,致使基于这些数据集进行的实证分析显著性有限甚至存在严重偏误。首先,对匹配后的数据清洗不足,极端值、异常值甚至经济指标出现负数的情况屡见不鲜,即使是因为工业企业数据库本身存在登记错误和一些偏差,将这些数据进行进一步的清洗,去除、填补异常部分也是必要的,向您承诺,本面板数据集对工业企业数据库本身进行了详尽、充分的清洗和核查,确保稳健性。其次,匹配方法混乱,匹配后不同数据库之间的企业ID并非一一对应甚至匹配错误(A企业在工企数据库的指标对应了B企业的专利数据),这种低级错误无疑会造成回归结果的不一致甚至伪回归;此外,假数据层出不穷,根本不存在1997年和2015年的工业企业数据库,居然有人大肆分享98-14区间外的数据?猜测是用上市公司等数据库编造一定的指标骗取钱财,严重鄙视。个人承诺,此面板数据尽力避免了上述问题,亲测稳健性和显著性有保证,适合各方向的微观计量研究。
2.该面板数据的指标(变量)包括:
(由于涵盖指标为几百个,此处只能列举部分重要指标,实际指标体系极为丰富,比海关数据库要丰富数倍,能想到的指标都有,做任何方向的微观计量研究均可,既可单独当做清洗好、匹配好的工业企业数据库用(其实一个清洗好的工业企业数据库现在至少100块,并且绝对没我处理的“干净”,可能存在问题),也可以结合专利数据做各种创新模型,方法多多,点子多多!)工业企业典型指标:经营活动产生的现金流入、流出(千元);投资活动产生的现金流入、流出(千元);筹资活动产生的现金流入、流出(千元);研究开发费;是否适用会计准则(虚拟变量,1为执行,0或空值为不适用);营业成本、营业税金(千元);公允价值变动收益(千元);年末从业人员数量合计(男性女性分别为单独变量);该企业人员的学历构成(研究生、本科、大专、高中、初中以上学历男性、女性分别设置变量);技术职称数量构成(初级、中级、高级工和初中高级技术职称人员的数量,均以男性女性区分生成单独的数值变量);国家资本、集体资本、个人资本、法人资本、外商资本(均以千元计);主营业务收入、利润构成、管理费用等(均以千元计);固定资产折旧、工业总产值(分为不变价和当年价格计两种指标)等(单位千元)
企业专利数据相关指标:包括发明专利申请量、发明专利授权量;实用新型的申请和授权量;外观设计的申请和授权量;专利申请和授权总量等企业层面重要专利指标(单位为个数)。
3.数据来源为98-14年的工业企业数据库和专利数据库,部分重要指标的缺失值和极端值是运用Python在国家专利局网站和上市公司数据库内编程手动爬取而得(极个别数据运用的智能填补方法见下文),并与同门师兄师姐以及老师手动进行数据清洗,去除了极端值和异常值,甚至从一定程度上解决了登记错误和上报错误这一无法避免的偏差,工作量巨大,实测进行研究的稳健性极好,适合各个方向的研究,请大家放心使用!
4.个人的研究领域是世经、国贸与应用微观计量,现于某一中游985(也说不定是中下游985...笑)深知一份优质的数据对于学术研究意义重大,因此我对数据质量作背书,承诺“良心”二字,绝不让大家上当受骗,请大家擦亮双眼,get靠谱数据!
5.面板数据形成基本操作思路:
第一步,参照Brandt(2012)的方法处理工企数据和专利数据(这篇文章可以私信我发给大家原版链接PDF,是非常好的一篇应用计量理论操作论文);
第二步,根据企业名称和年份与专利数据进行匹配;
第三步,根据组织代码和年份与专利数据进行匹配;
第四步,合并第二、三步的匹配数据,并去重;
第五步,手动清洗数据(软件是Stata和Python,对数据的填补综合运用了极大似然插值法、多项式插值法、线性插值法,将每种方法的拟合结果与前后数值进行比对,确保最优插值拟合,工作量极大,效果极好)。 反馈.jpg
新鲜出炉的“购买评价”,马赛克部分为这位同学的个人信息,不便公开,数据质量有目共睹,请大家放心购买!

6.诚挚祝大家科研顺利,幸福快乐;也希望经管之家论坛蒸蒸日上,为学术交流搭建温馨友好的平台!
最全面、最稳健的工企数据库+专利数据库匹配结果 (76 Bytes, 需要: RMB 98 元)
7.除了本数据集外,我在论坛还分享了关于绿色全要素生产率的数据,更是好评如潮!欢迎大家关注:

①2004-2020年省际绿色全要素生产率及其分解项、原始数据,附带控制变量和理论推导
https://bbs.pinggu.org/thread-10877683-1-1.html
②2000年-2020年共21年我国所有地级市绿色全要素生产率(GTFP),8799个观测值
https://bbs.pinggu.org/thread-10881416-1-1.html
2000-2020年地级市绿色全要素生产率原始数据,281个城市5901个观测值
https://bbs.pinggu.org/thread-10911114-1-1.html
2004-2019年省际绿色全要素生产率及其分解项、原始数据,附带控制变量和理论推导(比第一个数据少一年,便宜一些,按需购买即可)
https://bbs.pinggu.org/thread-10871021-1-1.html

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:工业企业数据库 工业企业数 企业数据 工业企业 500万 中国工业企业数据库 专利数据库 工企库匹配专利数据库 工企专利数据库匹配 微观数据库

回帖推荐

alyn. 发表于343楼  查看完整内容

点赞,数据质量很高,谢谢分享!

pkr627040 发表于338楼  查看完整内容

楼主人很好,作为科研小白,问了楼主很多问题,都得到了耐心解答!

pee745068 发表于271楼  查看完整内容

我曾经购买网站上的数据集,被坑了,全是错误和乱码;今天发现此数据匹配地很准确,无用的值已经删除,确实优质。

chivasxia 发表于216楼  查看完整内容

数据质量非常高!大家可以放心购买

不要做梦22 发表于172楼  查看完整内容

已购买!期待好结果!

alyn. 发表于4楼  查看完整内容

琢磨了一下午没敢买,最后对比了类似的帖子和其他平台上的数据,还是感觉楼主专业一点;刚刚做了回归,亲测GMM方法和ARIMA模型的结果非常好,价格也够良心!!!开心,去做分组回归了
已有 3 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
日新少年 + 60 精彩帖子
Evanic + 4 + 4 + 4 精彩帖子
alyn. + 5 + 1 + 1 + 1 精彩帖子

总评分: 论坛币 + 65  学术水平 + 5  热心指数 + 5  信用等级 + 5   查看全部评分

应用经济学博士后,国家自科基金青年项目负责人,已在CSSCI及其扩展版发表二十余篇论文,7篇SSCI/SCI,他引近500次。
沙发
电报机6 发表于 2022-10-12 14:44:26 来自手机 |只看作者 |坛友微信交流群
15年数据部分高校已经买了

使用道具

藤椅
国贸小可爱 学生认证  发表于 2022-10-12 16:29:19 |只看作者 |坛友微信交流群
电报机6 发表于 2022-10-12 14:44
15年数据部分高校已经买了
您好,我一直有关注过工企数据库的动向,之前看到过一个版本的工业企业数据库(2015),但存在极多错误,从ID到数值错误都存在很大问题,几乎是满篇需要修正;目前,据我了解,南开、对外经贸、上财以及华南理工、吉林大学等名校的校内数据库开放到2013,少有开放到2014的,以及EPS等网络数据库也没有更新到2015,能拿到2015的不知道您是哪个学校,如是清北人这个水平,那我们普通学生、青椒也无法企及,如若可以,还希望您分享一下;可以说,到2014是目前最适合做研究、性价比最高的工企数据库了。谢谢您的回复!
已有 1 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
alyn. + 5 + 1 + 1 + 1 精彩帖子

总评分: 论坛币 + 5  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

使用道具

板凳
国贸小可爱 学生认证  发表于 2022-10-12 18:52:41 |只看作者 |坛友微信交流群
我是论坛常驻用户,每天会经常登录论坛查看消息和回复;因此,我的数据是包售后的,如有任何问题,私信我一定给您解决!
已有 1 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
alyn. + 5 + 1 + 1 + 1 精彩帖子

总评分: 论坛币 + 5  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

使用道具

报纸
国贸小可爱 学生认证  发表于 2022-10-13 09:39:32 |只看作者 |坛友微信交流群
数据由两位教授看过,并且和同门一起仔细核实、清洗、处理,质量有保障,请大家放心购买,购买后若有问题请私信!
已有 1 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
alyn. + 5 + 1 + 1 + 1 精彩帖子

总评分: 论坛币 + 5  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

使用道具

地板
国贸小可爱 学生认证  发表于 2022-10-13 10:07:38 |只看作者 |坛友微信交流群
花费近一个月时间,和同门师兄弟认真进行匹配、核实工作,然后拿给老师看,数据质量有保障,可以放心做研究!
已有 1 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
alyn. + 5 + 1 + 1 + 1 精彩帖子

总评分: 论坛币 + 5  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

使用道具

7
国贸小可爱 学生认证  发表于 2022-10-13 15:23:41 |只看作者 |坛友微信交流群
此数据集既可作为工业企业数据库单独使用,又可以充分利用其中的企业专利各项指标,在智慧金融、数字经济等方向均可大放异彩!
已有 1 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
alyn. + 5 + 1 + 1 + 1 精彩帖子

总评分: 论坛币 + 5  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

使用道具

8
国贸小可爱 学生认证  发表于 2022-10-14 21:15:22 |只看作者 |坛友微信交流群
做实证分析甚至理论计量,最重要的是数据质量,数据质量不可靠,显著性、稳健性不够,何谈政策建议和启示,又何来边际贡献?本数据质量可靠!
已有 1 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
alyn. + 5 + 1 + 1 + 1 精彩帖子

总评分: 论坛币 + 5  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

使用道具

9
国贸小可爱 学生认证  发表于 2022-10-16 11:51:52 |只看作者 |坛友微信交流群
以工业企业数据库为代表的微观数据库以其观测值多、数据量大等特点受到期刊编辑的广泛欢迎,向您承诺,本数据在使用期间有任何问题随时私信我,我会以自身经验给您适当建议!
已有 1 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
alyn. + 5 + 1 + 1 + 1 精彩帖子

总评分: 论坛币 + 5  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

使用道具

10
bless1123 学生认证  发表于 2022-10-16 17:05:57 |只看作者 |坛友微信交流群
你们都是用什么电脑运行的呀,这数据太大了运行不了

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-27 10:54