第一,楼主看到的帖子已经被删除了工业数据库的附件,那里有1998-2008的情况——至少说明原帖作者不仅有那套数据,而且有比一般人更加全面的。
第二,我可以负责地说,原帖作者的ip地址不是大连,所以此人并非菊的同学。
第三,拥有工业数据库的人不再少数。为菊之所以在那篇论文用截面数据,根本原因在于为了多发论文——这个道理不需要我深入阐述吧?最简单的验证办法大家可以去问他本人。
第四,也是最关键的一条。用截面和用面板本来不是啥非此即彼,要死要活的问题。但研究出口企业生产率问题,尤其用异质性企业模型,要考虑市场的进入和退出——所以,面板数据比截面要合理——如果没有面板数据,那无话可说,但既然有就应该用。这个道理大家都懂,即使不做国际贸易(比如我本人)也能想明白其中的道理。截面数据只能放映当年存在的出口企业,而这个企业下一年(或者上一年)可能不出口。这是现实中比较大的,也比较有趣值得研究的问题。所以有人提出为什么不用面板数据,针对的是“企业出口决策行为”,而不是要为难他。
第五,1998-2008年的数据太庞大,如果要做面板数据需要大量时间做数据清理。
异质性企业贸易模型的扩展及中国经验.pdf
(159.12 KB)
用2004-2008年的数据做了分年度的截面回归。我问过他为什么不用面板,他说工程太浩大,没那时间做。当然,我理解这个工程浩大不仅仅是因为观测值很多,更主要是数据中有很多错误,一个一个去核查确实耗费巨大精力。但是,从学术研究角度说,这也是没有办法的事情。
第六,为什么不用面板数据?还有一个原因:OP方法STATA需要跑很久,一个回归可能几天都没有动静(假如电脑比较次)。菊同学几次提到过这个技术问题,并告诉我这也是他不用面板的原因之一。我的理解,这不是问题。跑几周的回归,也都是常事,花几天跑数据算什么?如今大家条件都好了,就算没有专用机房,借同学或者老师一台闲置的普通台式机总可以吧?自己的电脑做正常研究,让一台电脑跑数据(这毕竟是短期行为,我相信为了学术,你的同学老师也不会对你很抠门),难道不可以么?退一万步说,假如导师强制你做面板数据,难道你也跟他说电脑不行,咱用截面数据吧?
固然,原帖作者的一些批评有不太恰当之处(比如说审稿人的那一大段,很多认识有偏误),不过其中也有合理成分。内生性问题到处都有,解决得好就是AER(要声明下,此处只是一个比喻:内生性解决得好,能通过审稿人的质疑是发top的基础。不等于说发top只需要解决内生性。),解决得凑合就是CER(CER上有些文章内生性比较严重,但处理的方法并不妥当,所以,这也只是大体这么说。),解决不了就只能发普通的CSSCI——这差不多是行业潜规则。
很多人对内生性的看法不太明朗,这么说吧,一般要经过三个阶段:
第一阶段,啥是内生性?这个阶段基本属于没有好好看书和看文献(不划分年龄层了,因为这绝对可能下到18岁,上到80岁)的。
第二阶段,一定要解决内生性!这大概是一个常态。很多人主动或者被动地这么认为:如果不提内生性,或者论文不试图解决这个问题,那么就完全可能被枪毙。从这个意义上说,内生性都是实证研究的痛,但凡摸过几次数据的人都有这个感受。
第三阶段,内生性就是生活的一部分。内生性无处不在,就像人得吃饭一样平常。不同的人吃不同的食物,不同的人用不同的方法解决或者叫消除内生性。是否可以完全不提内生性——原则上是可以的,但要看你的论文讲什么问题。不分青红皂白,凡实证研究都要解决内生性,这本身就是有偏误的。
所以从研究和审稿角度说:死盯着内生性问题是未必是理智的表现。当然,如果论文的结论对系数估计很依赖,而内生性导致了严重的偏误,那另当别论。解决内生性问题,个人觉得积极的心态就像看待婚姻一样:不结婚是问题吧?好像是个问题。不结婚会死吗?好像也不会。