一个外行的计量经济学学习之路二
——经管答疑有感
论坛从答疑上线到后面的改版,专门确定经管答疑版块到目前为止已有两个半月左右,有幸接受论坛的邀请,参与到论坛的答疑中来。答疑两个半月,前前后后答了几百个问题,尝试着总结一点提问者共性的东西,结合这段时间我这个外行计量学习的心路历程变化,写了这个帖子,与大家讨论学习一下。不当之处欢迎批评指正。我真正意义上入驻论坛的时间不长。注册时间是2013年,真正意义上活跃在论坛是从去年年前左右开始。当时入驻的目的可能和现在大多数坛友相同:就是遇到计量/统计上的难题了,迫切想论坛的大神们帮忙解答下,要是能手把手的帮忙指导(远程辅导),甚至帮忙做一下数据分析更好。然而正如我在“一个外行的计量经济学学习之路(https://bbs.pinggu.org/thread-3596375-1-1.html)”中说的一样,入驻一段时间,发现自己想解决的问题没得到有效解决,反而在这个热心的过程中顺手帮许多坛友解决了问题(虽然由于自己的水平有限,很多问题都是初级的问题)。所以慢慢的我知道:求人不如求己,很多东西是需要自己去琢磨的。要想取得成果,非下苦工不可。
后来机缘巧合之下,发现了伍德里奇的《计量经济学导论(第三版)》(我在“一个外行的计量经济学学习之路(https://bbs.pinggu.org/thread-3596375-1-1.html)”此贴中有详细论述这个过程),整个寒假的时间沉浸在这两本书里面,前前后后看了三遍(第一遍是硬着头皮来的),慢慢的开始上路了。后来又有幸在论坛“蓝色”版主回一个坛友的帖子中发现了谢宇老师的《回归分析》一书,通过此书发现谢宇老师的另外两本好书:《社会学方法与定量研究》和《分类数据分析的统计方法》;再到后面课题组有个师姐写论文要用到HLM软件处理分层线性模型,接触到张雷老师的《多层线性模型应用》,郭志刚老师翻译的《分层线性模型:应用与数据分析方法》等书。我算是如获至宝,第一时间利用各种渠道买到纸质版(个人习惯,喜欢看纸质版的书,看书时可以做一些笔记在上面),网上没有纸质版卖的直接找电子版,然后到打印店打印出来看。拿到书后,集中时间和精力,快速的先将书系统的过一遍,觉得好的地方再进一步细看。同时,看的过程中不忘写点文章练手。其中,用到了分层线性模型、分位数回归等以前没有用过的方法,近期打算用面板回归处理一篇文章。(PS:上面忘了提陈强老师的《高级计量经济学及Stata应用》,这本书真心写得好,我前后看了4遍,但由于这本书语句比较精炼,没有一点基础去看可能会很艰难。即使有了一定的基础,有很多地方可能还是需要时间才能很好的理解)。
我时常在想,我一个计量/统计外行,通过自学出道慢慢的入门了,要是换一个人来,如果走我相似的路(如看这些书),是否会一样呢?
前几天,和我论坛的导师(现实生活中的师弟)“我的素质低”以及和论坛编辑(现实生活中的师姐)“chenyi112982”聊天。我说我是个计量外行,自学出道。大概有个重软件实现轻背后理论——恶补理论——理论与软件实现并重的这么一个心路历程(这里之所以把理论放在软件实现前面,是因为现阶段的我认为计量理论是根本,是“道”;软件实现是工具,是“术”。唯有两者并重,可能才能走得长远。不过话又说回来,计量理论掌握好了,一通百通。软件的实现慢慢就会变为其次了。就像我自身学习stata半年多时间,发现stata的计量模型实现过程和结果解读,很多可以迁移到Eviews上去,所以现在如果让我去学Eviews,我想应该会很快上手)。同时,和师姐聊到现在博士阶段,作为导师身边的主力,比较忙,不会再像去年寒假时有那么多时间集中的再来学习计量了,只能零散的学习。师姐提到了一个观点,我个人比较认同,可能适用于现在大多数来论坛计量版块提问的坛友们。
师姐的观点大致如下:“计量的学习是个系统长期的过程,如果只是用零散的时间去学,可能掌握的知识点也是零散的,不系统的。可能是不利于长期发展的·······”。
我个人的经历大概也是这样。就像我上段话中描述的一样,我看伍德里奇的《计量经济学导论》是利用寒假的时间集中看的(第一遍是真心辛苦,尤其是这么多年没碰《线性代数》、《概率论与数理统计》和《微积分》,所以看到高斯马尔科夫假定,看到OLS系数推导等地方时,真心觉得有点看不下去的感觉,还好实在闲得无聊坚持了下来),我看陈强老师《高级计量经济学及Stata应用》,看谢宇老师的几本书,看分层线性模型方面的书都是集中时间看的,长的10天左右。短的可能就2-3天第一遍就完了。前后一鼓作气的看有利于集中精力,且前后相对连贯。同时,持续一段时间的集中看书学习,容易找到一种看书的状态。这种状态找到了,可以帮助持续的沉下心来看下去。
现在忙了,好不容易找点空闲的时间看看书,却不一定进得了状态;好不容易进了状态,结果又通知有事要做,导致好不容易找到的状态瞬间没了。等有时间了却不一定有看书的那个状态了(即真正静下心来潜心的系统学习研究)。所以,我个人的经历能给后来人的启示可能就是:找好适合自己的资料,找到看书学习的一个状态,集中精力的来系统学习。何为适合?在我看来,就是拿着一本公认的经典书籍,看看自己现在的基础能否看得懂,在多大程度上能理解。就像看计量的书籍一样,零计量学习经历但有一定的数理基础的可能看古扎拉蒂的《计量经济学基础》较为合适,有一定的计量基础的可能看伍德里奇的《计量经济学导论》较为合适,基础深厚的可能看格林的《计量经济分析》较为合适。不同的基础对应不同的书籍。找准找对书籍对后面的学习很重要。
可能没基础的人看书会看着头大,看着吃力且看不进去。这时,有一定的感性认识可能会好一些。
如果是这样的话,经济条件好的建议报论坛的计量/统计软件培训班。张文彤老师的SPSS培训和连玉君老师的stata培训视频我都看过,系统的学习过,真心比较好。参加培训班的好处是即使培训后对计量/统计理论还是一知半解,但会多一层感性认识。举个例子,SPSS统计教程书上的前几章内容(如软件功能介绍,数据导入等基础知识)对于没接触过SPSS软件,无计量/统计学习基础但又想自学的人可能会看着就头大,搞半天搞不出个所以然来。但如果参加培训,看几天都没明白的东西可能经过1个多小时的培训课程就明白了。如果是边参加培训边实践操作,那认识自然会更加深刻。有了这层基础,再回过头来看经典教材,可能就相对容易得多了。我想,我之所以看一些计量/统计教程速度会那么快,与看过以上两位老师的视频教程是有莫大关联的。
经济条件差的建议在论坛找找以上我说的书的电子版(“一个外行的计量经济学学习之路https://bbs.pinggu.org/thread-3596375-1-1.html,这个帖子中也有很多书),然后找准适合自己基础的书,看电子版或买一本来系统的学习。同时,现在网上也有很多分享计量/统计学习的视频,也可找一些免费的来看看,学习。
然而,可能需要注意的是,不是买了视频或者参加了培训就会变得很厉害,就算计量/统计入门了。毕竟培训老师讲的再细再好,那也是老师的知识。要系统的转化为自己的东西才好。师傅领进门,修行靠个人的。这里其实又涉及到一个集中学习的过程了。我个人的经验是:看视频尤其是第一遍视频,即使看不懂也尽量耐着性子硬着头皮看下来,不懂的地方看第二遍第三遍;看的同时,跟着老师的思路走,边听边自己操作。同时,视频系统学习后回过头来集中学习软件实现背后的理论知识。
我个人的亲身经历是在看连玉君老师stata视频高级部分时,那个时候计量理论知识比较缺乏,而连老师又讲得很精炼,所以当时的感觉是听着很吃力,有点像是听懂又像是没听懂的感觉。说听懂了,是老师讲的通俗易懂,貌似是那么回事;说不懂呢,是因为老师讲的都是高度浓缩的知识点,如果不去看书,没法将这些知识点很好的串联在一起,所以就感觉比较吃力。当时遇到的具体情况是,看初级部分视频没问题,看高级部分视频的OLS回归部分没问题,但一到时间序列部分,面板分析部分,我就有点头大了,不得已只好放弃。后来系统的学了下伍德里奇《计量经济学导论》,陈强老师《高级计量经济学及Stata应用》,慢慢的对计量理论的理解更深刻一些,再回过来了看视频就没那么吃力了。同时,反而高度概括的视频讲解对相对繁琐的书籍理论介绍进行了提炼,使得自身理解更上了一层楼。
据我了解,即使伍德里奇的《计量经济学导论》现在网上也有培训视频卖,不可谓不是广大计量求知爱好者的福音。总结而言,软件培训更多的是帮助我们增加对软件及软件操作的认识,当然对计量理论的学习,也有一定的感性认识上的帮助,然而具体深入的计量理论学习可能还得靠自己私底下静下心来扎扎实实的看,不断的操作实践,进而不断的进步。
后来,我又在想,即使计量理论掌握的比较扎实了,基本的软件操作也会了(会用软件快速的实现各种所谓的计量模型),那么就一定能在实战中所向披靡么?可能未必。可能是因为书籍写作章节安排以及软件培训分块相对系统的原因,即使是经典的计量/统计书籍,很好的软件培训,知识点也只是相对集中的,对于建立一个解决实际问题的模型而言(如写毕业论文,发文章),可能就是零散的了。
举个具体的例子:我们要构建一个常见的横截面数据的OLS回归模型(即多元线性回归模型),经典的计量/统计书籍及软件培训可能会相对集中的分版块(章节)告诉我们要构建这么一个模型,需要的数据类型是什么样的(如因变量是连续性变量,自变量如果是类别变量需要处理为哑变量),有一些什么样的基本假定(如高斯马尔科夫假定),结果怎么解读等。即构建这么一个模型的所有细节的东西可能分版块(章节)讲解了,但没有集中起来。然而我们在实际写文章/毕业论文的过程中,是需要一个系统的思维过程,是需要把这些零散的知识点整合起来的。
比如现在如果要我构建一个横截面数据的OLS回归模型,我可能会考虑以下的东西(这里只做简单的介绍,详细一点的介绍请参见我的另外两个帖子〖"万万"个论坛币〗计量实证的“摸底”考试:https://bbs.pinggu.org/thread-3641714-1-1.html和SSCI/SCI发表的一点心路历程:https://bbs.pinggu.org/thread-3695264-1-1.html):
一是构建模型的指标怎么来。在稍微好点的国内外期刊中,模型指标的选取是基于理论/文献/有理有据的常识来的,并会在构建模型前做严格的研究假设。
二是构建模型前数据的预处理。如做描述性统计分析看看数据是否存在极端异常值;数据是否基本符合正态分布,如果不符合怎么处理(如对于含0较少的右偏态分布数据取对数;对于含0较多的右偏态分布数据将连续性变量处理为类别变量);是否将类别变量处理为哑变量;对数据变量间是否存在多重共线性进行诊断等(曾经尝试写了这么一个帖子,是关于极端异常值诊断的。描述性统计分析在实证研究中的作用及具体软件实现——以SPSS为例:https://bbs.pinggu.org/thread-3651449-1-1.html)。
三是对数据进行建模,然后对模型进行合理的解释。建模时考虑结果是否稳健,是否存在内生性变量等。
之所以会举这个例子是因为我在答疑过程中发现:很多坛友都是拿到数据直接就到第三步的建模过程了,淡化了第一步指标的选取过程和第二步数据的预处理过程。这是非常可怕的一种后果。然后我又结合来提问的坛友的可能特征想了想,至于为什么这样的原因就了然了。经过我个人的观察,来提问的坛友可能大多具有以下特征:
一是大多是本科生或者硕士生,未学过计量/统计会懂一点“皮毛”的居多。真正计量功底深厚的人大多潜水了,自己有问题基本自己就解决了。这部分人即使有问题,也知道通过何种渠道去找资料,能快速的找到相应的资料解决问题;还有一种是介于以上二者之间的,恰如我。懂一些计量,能解决一些基础问题,且正好又比较热心,所以被论坛HR挖掘过来当版主,帮助大家答疑解惑了。
二是对一些计量/统计理论的理解都不深刻,问的问题确是相当高深复杂的模型。这部分人层次跳跃很大。举个我答疑中的例子,有个坛友不知道z统计量是什么东西,问的问题确是面板Logit模型。着实吓了我一跳。
三是构建的模型多是模仿着文献中的来,自己找同样的指标构建同样的模型却得不到一样的结果。我在第二点中举的例子的坛友可能就在此列。
四是有一腔热血想快速的学好计量。这类坛友经常问的问题是如何学好计量/统计/某门软件操作,要多少时间才能学好之类的问题。
我时常在想,对于来论坛提问的大部分坛友,他/她们中可能只有很少一部分人会继续深造,或者出去工作后会用计量/统计相对较多。更多的坛友可能只是面临写文章/毕业论文的压力,而迫切的需要用到计量/统计软件。他/她们中的大多数可能把论文写完了就出去工作了,不会再接触这些所谓的计量模型了。
同时,很多坛友基础知识都没掌握好,一来就问很高深的计量模型,这使得我们这些所谓的答疑“专家”或者热心答疑的坛友很尴尬。他/她们的模型构建大多模仿着文献来,软件操作仿着书来。由于缺乏一定的基础,我们即使回答了他/她们的问题他/她们也不一定看得懂(因为很多时候计量模型的建构是个系统的过程,难免会涉及到一些专有名词,即使是一些很基础的专有名词。我记得我的答疑中有用复杂的计量模型却不知道多重共线性是怎么一回事的)。更有甚至,有的坛友想当然的,“天马行空”式去构建计量模型,指标的选取脱离了理论/文献/基本常识。这使得我们答也不好,不答也不好,很尴尬。对我个人而言,我是本着一颗热情的心,只要我会的还是尽可能的帮助,并会在回答中提到要注意指标的选取和数据的预处理。
我系统的梳理了下我的几百个答疑,发现只要是涉及到回归方面的问题大多是没有进行我上面举的例子中提到的第二步。故而常见的问题是模型的回归系数方向与参考的文献相反/与自己预计的方向相反/与自己做散点图发现变量间的方向相反。这些问题多是极端异常值/变量间的多重共线性引起的。很多坛友经我一说后,马上去诊断一下,很多就得到自己想要的结果了。
我一直在不断的反思自己这一路的计量自学过程(https://bbs.pinggu.org/thread-3596375-1-1.html),以前写文章到处碰壁的过程(https://bbs.pinggu.org/thread-3695264-1-1.html)。深感计量理论的学习,软件实现,文章的写作,投稿修稿到最终稿件见刊的这一系列过程是一个系统的过程。任何一个环节弱了可能都会使得文章经历一些坎坷后才能见刊。在这反思的背后又对前面提到的部分坛友的情况感到担忧:文献没读几篇,缺乏一定的鉴别能力就匆忙的找篇范文模仿着选取指标了(可能参考的文献模型建构的都是有问题的);指标的选取没有基于一定的理论/文献/客观有力的常识,而是“天马行空”想当然的就选取了,且在选取时贪多求全,忽略了模型的简洁性;指标选取后没做严格的理论假设,没对数据做基本的预处理就模仿着文献和软件实现书籍仓促的建模了;有的“更可恨”的是明明是建模过程中出现了问题却为了迎合主观常识,人为的篡改了模型数据(这样的结果可能行家一眼就看出来了)······
担忧归担忧,但我也知道所有事物的转变总有一个过程(我自己前期写的中文文章也存在这样或那样的不足)。对于前面提到的只是暂时需要帮助,事后工作后与计量接触不多的这部分坛友我也表示理解(正因为理解,所以看到有坛友提问,只要我能答的,也会尽可能的给予解答)。写此贴的目的一是在于再次回顾自己计量学习的一点心路历程,希望给想学好计量却又苦于不知道如何学的坛友一点启示(我的心路历程大致都在发表的这几个帖子中了);二是简单的归纳总结了下答疑两个半月以来的一点心得和一点担忧,希望看到这个帖子的坛友(尤其是基础不那么好的坛友)在以后构建模型时多想想我举的例子的第一步和第二步(有时间我再开一贴对这一系列过程做个系统的论述)。前期准备的越充分,后期才不会有那么多不确定,那么多烦恼。
想说的话还有很多,但一看这篇幅,想想还是算了。留待以后吧。需要说明的是,此贴更多的只是在心路历程上和一些“假大空”的实现上进行了一些梳理,具体的计量理论和软件实现过程还是得靠自己私底下辛勤的付出才行。
越努力,越幸运。与君共勉。
xddlovejiao1314
2015年9月2日于蓉城