请选择 进入手机版 | 继续访问电脑版
楼主: 国贸小可爱
2782 119

[经管数据集] 【已匹配】1998-2014年工业企业数据库和企业专利匹配结果(观测值近500万,手动清洗) [推广有奖]

  • 0关注
  • 94粉丝

svip2

副教授

3%

(VIP/贵宾)二级

95%

威望
0
论坛币
954 个
通用积分
31.0522
学术水平
72 点
热心指数
73 点
信用等级
70 点
经验
36944 点
帖子
821
精华
0
在线时间
557 小时
注册时间
2021-1-31
最后登录
2022-11-28

国贸小可爱 学生认证  发表于 2022-10-12 11:28:49 |显示全部楼层
相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
附件为1998—2014共17年间我国工业企业数据库与企业专利数据(数据来源是多方检索的,详见下文)的联合匹配结果,已经按企业代码id精确匹配并手动清洗,近500万个观测值(将近十个G的数据大小,只能用百度网盘分享,谢谢大家理解),经我个人以及两位在职教授(研究方向分别为经济统计和关税理论、政策)多次校对、核实,数据质量较高,稳健且显著,具有较高的科研价值,助力大家多发C刊!变量包括1998—2014年工业企业数据库所有变量,并匹配企业专利数据库(数据来源见下文)的几种专利数据,要点如下:1.现有工业企业数据库与各大数据库的匹配存在几大问题,致使基于这些数据集进行的实证分析显著性有限甚至存在严重偏误。首先,对匹配后的数据清洗不足,极端值、异常值甚至经济指标出现负数的情况屡见不鲜,即使是因为工业企业数据库本身存在登记错误和一些偏差,将这些数据进行进一步的清洗,去除、填补异常部分也是必要的,向您承诺,本面板数据集对工业企业数据库本身进行了详尽、充分的清洗和核查,确保稳健性。其次,匹配方法混乱,匹配后不同数据库之间的企业ID并非一一对应甚至匹配错误(A企业在工企数据库的指标对应了B企业的专利数据),这种低级错误无疑会造成回归结果的不一致甚至伪回归;此外,假数据层出不穷,根本不存在1997年和2015年的工业企业数据库,居然有人大肆分享98-14区间外的数据?猜测是用上市公司等数据库编造一定的指标骗取钱财,严重鄙视。个人承诺,此面板数据尽力避免了上述问题,亲测稳健性和显著性有保证,适合各方向的微观计量研究。
2.该面板数据的指标(变量)包括:
(由于涵盖指标为几百个,此处只能列举部分重要指标,实际指标体系极为丰富,比海关数据库要丰富数倍,能想到的指标都有,做任何方向的微观计量研究均可,既可单独当做清洗好、匹配好的工业企业数据库用(其实一个清洗好的工业企业数据库现在至少100块,并且绝对没我处理的“干净”,可能存在问题),也可以结合专利数据做各种创新模型,方法多多,点子多多!)工业企业典型指标:经营活动产生的现金流入、流出(千元);投资活动产生的现金流入、流出(千元);筹资活动产生的现金流入、流出(千元);研究开发费;是否适用会计准则(虚拟变量,1为执行,0或空值为不适用);营业成本、营业税金(千元);公允价值变动收益(千元);年末从业人员数量合计(男性女性分别为单独变量);该企业人员的学历构成(研究生、本科、大专、高中、初中以上学历男性、女性分别设置变量);技术职称数量构成(初级、中级、高级工和初中高级技术职称人员的数量,均以男性女性区分生成单独的数值变量);国家资本、集体资本、个人资本、法人资本、外商资本(均以千元计);主营业务收入、利润构成、管理费用等(均以千元计);固定资产折旧、工业总产值(分为不变价和当年价格计两种指标)等(单位千元)
企业专利数据相关指标:包括发明专利申请量、发明专利授权量;实用新型的申请和授权量;外观设计的申请和授权量;专利申请和授权总量等企业层面重要专利指标(单位为个数)。
3.数据来源为98-14年的工业企业数据库和专利数据库,部分重要指标的缺失值和极端值是运用Python在国家专利局网站和上市公司数据库内编程手动爬取而得(极个别数据运用的智能填补方法见下文),并与同门师兄师姐以及老师手动进行数据清洗,去除了极端值和异常值,甚至从一定程度上解决了登记错误和上报错误这一无法避免的偏差,工作量巨大,实测进行研究的稳健性极好,适合各个方向的研究,请大家放心使用!
4.个人的研究领域是世经、国贸与应用微观计量,现于某一中游985(也说不定是中下游985...笑)深知一份优质的数据对于学术研究意义重大,因此我对数据质量作背书,承诺“良心”二字,绝不让大家上当受骗,请大家擦亮双眼,get靠谱数据!
5.面板数据形成基本操作思路:
第一步,参照Brandt(2012)的方法处理工企数据和专利数据(这篇文章可以私信我发给大家原版链接PDF,是非常好的一篇应用计量理论操作论文);
第二步,根据企业名称和年份与专利数据进行匹配;
第三步,根据组织代码和年份与专利数据进行匹配;
第四步,合并第二、三步的匹配数据,并去重;
第五步,手动清洗数据(软件是Stata和Python,对数据的填补综合运用了极大似然插值法、多项式插值法、线性插值法,将每种方法的拟合结果与前后数值进行比对,确保最优插值拟合,工作量极大,效果极好)。 反馈.jpg

新鲜出炉的“购买评价”,马赛克部分为这位同学的个人信息,不便公开,数据质量有目共睹,请大家放心购买!

6.诚挚祝大家科研顺利,幸福快乐;也希望经管之家论坛蒸蒸日上,为学术交流搭建温馨友好的平台!
最全面、最稳健的工企数据库+专利数据库匹配结果 (76 Bytes, 需要: RMB 49 元)
7.除了本数据集外,我在论坛还分享了关于绿色全要素生产率的数据,更是好评如潮!欢迎大家关注:

①2004-2020年省际绿色全要素生产率及其分解项、原始数据,附带控制变量和理论推导
https://bbs.pinggu.org/thread-10877683-1-1.html
②2000年-2020年共21年我国所有地级市绿色全要素生产率(GTFP),8799个观测值
https://bbs.pinggu.org/thread-10881416-1-1.html
2000-2020年地级市绿色全要素生产率原始数据,281个城市5901个观测值
https://bbs.pinggu.org/thread-10911114-1-1.html
2004-2019年省际绿色全要素生产率及其分解项、原始数据,附带控制变量和理论推导(比第一个数据少一年,便宜一些,按需购买即可)
https://bbs.pinggu.org/thread-10871021-1-1.html

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:工业企业数据库 工业企业数 企业数据 工业企业 500万 中国工业企业数据库 专利数据库 工企库匹配专利数据库 工企专利数据库匹配 微观数据库

回帖推荐

alyn. 发表于4楼  查看完整内容

琢磨了一下午没敢买,最后对比了类似的帖子和其他平台上的数据,还是感觉楼主专业一点;刚刚做了回归,亲测GMM方法和ARIMA模型的结果非常好,价格也够良心!!!开心,去做分组回归了
已有 2 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
Evanic + 4 + 4 + 4 精彩帖子
alyn. + 5 + 1 + 1 + 1 精彩帖子

总评分: 论坛币 + 5  学术水平 + 5  热心指数 + 5  信用等级 + 5   查看全部评分

某中游985世界经济硕博连读,已在CSSCI及其扩展版发表文章10余篇
电报机6 发表于 2022-10-12 14:44:26 来自手机 |显示全部楼层
15年数据部分高校已经买了

使用道具

国贸小可爱 学生认证  发表于 2022-10-12 16:29:19 |显示全部楼层
电报机6 发表于 2022-10-12 14:44
15年数据部分高校已经买了
您好,我一直有关注过工企数据库的动向,之前看到过一个版本的工业企业数据库(2015),但存在极多错误,从ID到数值错误都存在很大问题,几乎是满篇需要修正;目前,据我了解,南开、对外经贸、上财以及华南理工、吉林大学等名校的校内数据库开放到2013,少有开放到2014的,以及EPS等网络数据库也没有更新到2015,能拿到2015的不知道您是哪个学校,如是清北人这个水平,那我们普通学生、青椒也无法企及,如若可以,还希望您分享一下;可以说,到2014是目前最适合做研究、性价比最高的工企数据库了。谢谢您的回复!
已有 1 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
alyn. + 5 + 1 + 1 + 1 精彩帖子

总评分: 论坛币 + 5  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

使用道具

alyn. 发表于 2022-10-12 17:35:14 |显示全部楼层
琢磨了一下午没敢买,最后对比了类似的帖子和其他平台上的数据,还是感觉楼主专业一点;刚刚做了回归,亲测GMM方法和ARIMA模型的结果非常好,价格也够良心!!!开心,去做分组回归了

使用道具

alyn. 发表于 2022-10-12 17:35:23 |显示全部楼层

使用道具

国贸小可爱 学生认证  发表于 2022-10-12 18:52:41 |显示全部楼层
我是论坛常驻用户,每天会经常登录论坛查看消息和回复;因此,我的数据是包售后的,如有任何问题,私信我一定给您解决!
已有 1 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
alyn. + 5 + 1 + 1 + 1 精彩帖子

总评分: 论坛币 + 5  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

使用道具

国贸小可爱 学生认证  发表于 2022-10-13 09:39:32 |显示全部楼层
数据由两位教授看过,并且和同门一起仔细核实、清洗、处理,质量有保障,请大家放心购买,购买后若有问题请私信!
已有 1 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
alyn. + 5 + 1 + 1 + 1 精彩帖子

总评分: 论坛币 + 5  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

使用道具

alyn. 发表于 2022-10-13 09:42:23 |显示全部楼层

使用道具

国贸小可爱 学生认证  发表于 2022-10-13 10:07:38 |显示全部楼层
花费近一个月时间,和同门师兄弟认真进行匹配、核实工作,然后拿给老师看,数据质量有保障,可以放心做研究!
已有 1 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
alyn. + 5 + 1 + 1 + 1 精彩帖子

总评分: 论坛币 + 5  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

使用道具

国贸小可爱 学生认证  发表于 2022-10-13 15:23:41 |显示全部楼层
此数据集既可作为工业企业数据库单独使用,又可以充分利用其中的企业专利各项指标,在智慧金融、数字经济等方向均可大放异彩!
已有 1 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
alyn. + 5 + 1 + 1 + 1 精彩帖子

总评分: 论坛币 + 5  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

使用道具

您需要登录后才可以回帖 登录 | 我要注册

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2022-11-28 16:32