如何认识Stata?
Stata的历史可以追溯到1985年,但是真正开始大规模的商业化推广仅仅在其5.0版本推出之后,这一年是1996年,所以当前的Stata Copy Right都写的是1996~2014。Stata命令简洁、功能强劲,一经推出就受到了研究界的青睐,从名不见经传到逐渐和老前辈SAS分庭抗礼,凸显了Stata强大的功能和简单易用的特点。
一、为什么要使用Stata
我们已经有很多简单易用的软件,根本不需要编程,为什么要学习一个需要编程的Stata呢?
(1)学术研究的数据来源复杂。
一个普通的公司金融研究,可能使用到财务数据、交易数据、股权结构数据、分析师数据、法律保护指标等,他们来自于不同的商业数据库,也可能使用到诸如地理纬度、语言文化和宗教信仰等指标,他们或许来自CIA。 这些数据不仅来源不同,而且格式不同,交易数据是日数据,财务数据是年度数据,分析师跟踪数据时不定期的发布,地理文化宗教语言的数据是因国家不同而不同,如何将不同来源的数据合并起来?
我们需要自己动手将数据整理好,整理成横平竖直的面板数据,试算不同的模型,这个工作,基于Excel的手工劳动几乎是难以想象的。假设你要为你的300个民营企业,按照某种标准寻找300个国有企业的对照组,想象一个个的手工劳动如何完成吧!假定你要计算每一个上市公司、每一个自然年度,其股票价格与市场指数的同步性,试试如何使用Excel这一的软件吧!假定你要下载2100家上市公司过去10年的年报PDF文件,假定总共20000份,假定每份需要3分钟,想象你每天工作10小时从不出错需要多少天吧!而且我保证你每份不止花三分钟时间!这些简单的、但是需要重复劳动的工作,都需要通过程序来解决,Stata只是将高难度的Visual C++程序降阶成菜鸟级的程序,变成我们这些从事社会科学的程序菜鸟们可以丰衣足食的工作。
(2)研究过程的可重复性。
假设你使用Excel这一的软件,通过点击500次 鼠标,配合键盘的敲打,终于完成了一篇高质量论文的实证研究部分,然后经过两三个月的呕心沥血,撰写出自以为可以问鼎《经济研究》的宏篇杰作,然而寄给《经济研究》以后,过了半年才有消息,好消息是没有被直接退稿,坏消息是审稿人给出了数十条修改意见,比如每一个变量的定义需要修订,某一个回归模型需要用工具变量控制内生性等,试问你还能记清9个月前的每一次鼠标和键盘操作吗?你还能重复或者还原当时的过程吗?你的计算结果还和原来相同吗?高质量的论文离不开多次修改,我们必须用程序将数据整理的过程计算的轨迹保存下来,随时按照审稿人的要求,重复或者修改部分操作!因此,没有程序就难以发表高质量的论文!
(3)计算结果的输出。
试想你估计了很多模型,如何将估计结果从你的统计软件转移到你使用的MS Word表格里面呢?过去我们的方法是手工劳动,将系数一个个地复制和粘贴到word的单元格里面,然后根据需要在一个个四舍五入保留你需要的有效数字个数,然后再按照显著性程度添加星号!这样的过程让人深深地感受到,研究真的不是脑力问题,而是活生生的体力活儿!
今天,Stata有更多的命令可以方便地将你的计算结果输出到Word或LaTex等问题处理软件中,甚至可以直接转换成html的脚本文件,直接发布到互联网上。
二、实证研究的难点在哪里?
通常人们会认为,实证的难点在于模型的估计,这事实上是非常错误的观点。甚至今天,也有很多人认为,高水平的论文需要复杂的模型。
然而我们再看看金融学三大刊(JF,JFE和RFS)和会计学三大刊(JAR,JAE和TAR)的文章,主流当然是使用最简单的线性回归模型的研究,当然这些年来也有变化,比如,对内生性的处理,越来越变得程序化,即主流是简单线性模型加内生性处理(Diff-in-Diff)。其实无论是什么模型,在Stata里面,其估计命令都往往是一句话,只是不同的学者,使用的命令不同罢了,有的人使用OLS,有的人使用Tobit或orderedProbit,有的人一辈子也不会使用泊松回归,万一需要某一个模型,他总是能花半个小时事件掌握这一模型在Stata里面的估计方法(如果有的话)。
(资料来源于网络,有改编)Stata寒假特训_连玉君主讲
https://bbs.pinggu.org/thread-3047248-1-1.html
【Stata培训】高级计量经济学及Stata_陈强主讲
https://bbs.pinggu.org/thread-3156565-1-1.html