楼主: lishufangsmile
25096 32

[学习心得] stata初学者的感想   [推广有奖]

11
sungmoo 发表于 2012-11-30 15:56:26 |只看作者 |坛友微信交流群
刚刚看了stata,感觉stata就是用来分析单个解释变量(X)或多个解释变量(X1 X2 X3...)与被解释变量(Y)之间的关系的软件。
help contents

*可见:

Category listings

Basics
  language syntax, expressions and functions, ...

Data management
  inputting, editing, creating new variables, ...

Statistics
  summary statistics, tables, estimation, ...

Graphics
  scatterplots, bar charts, ...

Programming and matrices
  do-files, ado-files, Mata, matrices

使用道具

12
zyz0329 在职认证  发表于 2012-11-30 22:28:00 |只看作者 |坛友微信交流群
这是计量经济学的总结 貌似以stata无关 stata是教我们如何用软件来实现统计算法、计量模型、作图等功能的计量统计软件,它的扩展性很好 比spss和eviews都强 在某些方面甚至好过SAS

使用道具

13
擎天一剑89 发表于 2012-12-1 10:42:24 |只看作者 |坛友微信交流群
学的好痛苦……

使用道具

14
gardenia_55 发表于 2012-12-1 12:47:54 |只看作者 |坛友微信交流群
lz要是能再把相对应的命令简单总结一下,绝对造福大众了~~~

使用道具

15
lishufangsmile 发表于 2012-12-1 13:54:16 |只看作者 |坛友微信交流群
gardenia_55 发表于 2012-12-1 12:47
lz要是能再把相对应的命令简单总结一下,绝对造福大众了~~~
1.一般检验
  假设系数为0, t比较大则拒绝假设,认为系数不为0.
  假设系数为0,P比较小则拒绝假设,认为系数不为0.
  假设方程不显著,F比较大则拒绝假设,认为方程显著。
2.小样本运用OLS进行估计的前提条件为:
  (1)线性假定。即解释变量与被解释变量之间为线性关系。这一前提可以通过将非线性转换为线性方程来解决。
  (2)严格外生性。即随机扰动项独立于所有解释变量:与解释变量之间所有时候都是正交关系,随机扰动项期望为0。(工具变量法解决)
  (3)不存在严格的多重共线性。一般在现实数据中不会出现,但是设置过多的虚拟变量时,可能会出现这种现象。Stata可以自动剔除。
  (4)扰动项为球型扰动项,即随即扰动项同方差,无自相关性。
3.大样本估计时,一般要求数据在30个以上就可以称为大样本了。大样本的前提是
(1)线性假定
(2)渐进独立的平稳过程
(3)前定解释变量,即解释变量与同期的扰动项正交。
(4)E(XiXit)为非退化矩阵。
(5)gt为鞅差分序列,且其协方差矩阵为非退化矩阵。
与小样本相比,其不需要严格的外生性和正太随机扰动项的要求。

4.命令
  稳健标准差回归:reg y x1 x2 x3, robust  回归系数与OLS一样,但标准差存在差异。如果认为存在异方差,则使用稳健标准差。使用稳健标准差可以对大样本进行检验。
  对单个系数进行检验: test lnq=1
  线性检验:testnl _b[lnpl]=_b[lnq]^2

5.如果回归模型为非线性,不方便使用OLS,则可以采取最大似然估计法(MLE),或者非线性最小二乘法(NLS)

6.违背经典假设,即存在异方差的情况。截面数据通常会出现异方差。
因此检验异方差可以:
(1)        看残差图,但只是直观,可能并不准确。
rvfplot  (residual-versus-fitted plot) 与拟合值的散点图
rvpplot varname  (residual-versus-predictor plot) 与解释变量的散点图
扰动项的方差随观测值而变动,表示可能存在异方差。
(2)        怀特检验:
estat imtest, white    (post-estimation information matrix test)
P比较小,则拒绝同方差假设,表示存在异方差,不能用OLS。反之则证明为同方差。
(3)BP检验
        estat hettest,iid   (默认设置为使用拟合值y^)
        estat hettest, rhs iid   (使用方程右边的解释变量,而不是y^)
        estat hettest [ varlist],iid (使用某个指定的解释变量)
        P小,则拒绝原假设。

如果存在异方差,则可以:
(1)使用OLS+稳健标准差robust
(2)广义最小二乘法(GLS)
(3)加权最小二乘法(WLS)
predict el, res   (预测残差)
g e2=el^2
辅助回归:
g lne2=log(e2)
reg lne2 lnq, noc
predict lne2f    计算辅助回归的拟合值
g e2f=exp(lne2f)  去掉对数即权重之倒数
reg lntc lnq lnpl lnpk lnpf [aw=1/e2f]

reg y x1 x2 x3 [aw=1/var]    (aw表示analytical weight, var表示随即扰动项的方差。)
(4)可行广义最小二乘法(FGLS)

6.自相关
  时间序列中容易出现自相关,而截面数据也可能存在空间自相关。人为处理数据如移动平均等做法也可能导致自相关。
  检验自相关可以:
(1)作图,但并不严格。
   定义滞后算子L.(只有时间序列数据和面板数据才能定义时间变量。)
   tsset yaear
   一阶差分:D.x=xt-xt-1  D2. X=xt-xt-2
   LD. 表示一阶差分的滞后值

   画图:scatter el L.el
         ac el  (看自相关图)
         pac el (看偏相关图)
(2)BG检验
     estat bgodfrey  (默认p=1)
estat bgodfrey,lags(p)
estat bgodfrey, nomiss0  (使用不添加0的BG检验)
     使用命令ac 查看自相关图,或者设置较大的p值进行显著性检验,t期不显著了,则选择P=T-1
      统计检验P值小,则拒绝假设。
(3)box-pierce Q检验/ Ljung-Box Q
     reg y x1 x2 x3
     predict el, resid
     wntestq el   (使用stata提供的默认滞后期)
     wntestq el, lags(p)   (使用自己设定的滞后期)
(4)DW检验:现在已经不常用,因为其只能检验一阶自相关。
     estat dwatson

自相关的处理方法:
(1)使用OLS+异方差自相关稳健的标准差(Heteroskedasticity and Autocorrelation Consistent Standard Error, HAC)
   newey y x1 x2 x3, lag(p)    (HAC标准差,必须制定滞后阶数p)
   滞后期数选择n^1/4
(2)使用OLS+聚类稳健的标准差(cluster robust standard error)面板数据中经常使用聚类稳健的标准差。
reg y x1 x2 x3, cluster(state)   (聚类稳健标准差,假设“state”为聚类变量)
(3)使用可行广义最小二乘法(FGLS)
prais y x1 x2 x3    (使用默认的PW估计法)
praise y x1 x2 x3, corc    (使用CO估计法)
(4)修改模型设定,可能自相关是由于遗漏了自相关的解释变量。

7多重共线性
  在回归后,使用命令VIF
  estat vif  经验表示, vif <10, 则不存在多重共线性。
  如果存在多重共线性,但是只关心整个方程预测被解释变量的能力,或者只关心变量的显著性,则不必理会多重共线性,因为多重共线性只是对单个解释变量的解释能力估计出现了偏差。存在多重共线性,则逐个剔除。

8.遗漏变量(解决扰动项严格外生性的问题)
  遗漏变量与解释变量不相关时,扰动项与解释变量不相关,OLS估计依然一致,但扰动项方差过大,影响估计的精确度
  如果遗漏变量与解释变量相关,扰动项与解释变量则会相关,导致OLS估计不再一致。出现“遗漏变量偏差”。
  所以可以不研究某些解释变量而只对感兴趣的解释变量进行研究,但是重要的是遗漏解释变量不能与解释变量相关。解决遗漏解释变量的方法有:
(1)        加入尽可能多的控制变量(control varible),从理论上说明遗漏变量与扰动项不相关,或很弱的相关
(2)        使用代理变量(proxy variable),这在控制变量不可得的时候采用,如用IQ代替能力
(3)        工具变量法
(4)        使用面板数据(短面板、长面板、动态面板)
(5)        随即实验和自然实验

9.选择解释变量的个数的时候,要选择适当的方式。
(1)按照变量个数使得矫正可决系数最大的准则选择个数(如果加入变量,反倒A-R变小,则去掉加入的变量。)
(2)赤池信息准则(AIC akaike Information Criteria)
(3)贝叶斯信息准则(Bayesian Information Criteria)
(4)汉南-昆信息准则(Hanan-Quinn Information Criteria) 但这一准则不常用
  命令:estat ic
取AIC BIC 最大时候的变量个数

10.处理极端数据:
  reg y x1 x2 x3
predict lev, leverage      (列出所有解释变量的影响力值)
gsort –lev   (将所有的观测值按照lev的降序排列)
sum lev    (看LVE的最大值和平均值)
list lev 1/3  (列出影响力最大的三个值)
可以将极端数据加入和省略进行对比。

10虚拟变量
M个定性的量,最多可以有(M-1)个虚拟变量
设置虚拟变量: generate d=(year>=1978)
如希望将每个省设置为虚拟变量,则需要 : tabulate province, generate(pr)
回归简化为: reg y x1 x2 x3 pr2-pr31


11.工具变量法
  这可以解决扰动项与自变量的相关问题,设置的工具变量需要与扰动项无关而与内生解释变量相关。传统的工具变量法一般通过两阶段最小二乘法TSLS、2SLS(two stage least square)。第一阶段,工具变量对内生解释变量回归;第二阶段,被解释变量对工具变量的拟合值进行回归。多个工具变量的线性组合仍然可以作为工具变量。
  命令:ivregress 2sls depvar [varlist1] (varlist2=inslist)
        Depvar为被解释变量, varlist1为外生解释变量,varlist2为内生解释变量,instlist为工具变量。 如:
       ivregress 2sls y x1 (x2 = z1 z2)   
       ivregress 2sls y x1 (x2 x3 = z1 z2 z3 z4), r first  (r表示用异方差的标准差,first表示在结果中显示第一阶段的回归。)

检验工具变量与解释变量的相关性:即检验工具变量是否为弱工具变量,
  命令:estat firststage, all forcenonrobust   (all表示显示每个内生变量的统计量,而非仅仅所有内生变量综合的统计量,forcenonrobust表示及时在进行工具变量法时用了稳健标准差,也仍然允许计算estat firststage)
解决弱工具变量的方法包括
A.        寻找更强的工具变量
B.        弱工具变量较多,则舍弃弱工具变量,
C.        用有限信息最大似然估计法(Limited information maximum likelihood estimation, LIML)LIML与2SLS渐进等价,但在弱工具变量的情况下,LIML的小样本性质可能优于2SLS.
命令为:ivregress liml depvar [varlist 1] (varlist2 = instlist)
    过度识别(即多余的工具变量的个数)命令为:estat overid 但并不能告诉哪些工具变量无效。
    使用工具变量的前提是存在内生解释变量(即解释变量与扰动项相关),这也需要检验。如果所有解释变量都是外生变量则用OLS比用工具变量法更有效,反之应该用工具变量法。豪斯曼检验就是假设所有解释变量都为外生变量。
   豪斯曼检验的stata命令:
  reg y x1 x2
estimates store ols        (存储OLS的结果)
ivregress 2sls y x1 (x2= z1 z2)   (假设怀疑x2为内生变量)
estimates store iv        (存储2SLS的结果)
hausman iv ols, constant sigmamore  (根据存储的结果进行豪斯曼检验)
但uguo存在异方差,则OLS并不是最有效的,传统额豪斯曼检验不适用于异方差的情形,解决方法是“自助法”;或者使用“杜宾-吴-豪斯曼DWH检验”也可以适用于存在异方差的情况。命令: estat endogenous
在球型扰动项的假定下,2SLS是最有效的,但是如果扰动项存在异方差或者自相关,则广义矩估计(generalized method of moments, GMM)更有效。GMM与2SLS的关系就相当于GLS与OLS之间的关系。
已有 11 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
夏尔。 + 1 + 1 精彩帖子
新的辉煌2012 + 1 + 1 + 1 精彩帖子
muzituchuan + 1 + 1 精彩帖子
胡老 + 5 + 5 + 5 总结得很好
张晓青 + 1 + 1 对论坛有贡献
GGGMMMan + 1 + 1 + 1 精彩帖子
zhongjunwei + 1 + 1 + 1 + 1 精彩帖子
yiruodongchuan + 1 + 1 + 1 精彩帖子
yybys + 2 + 2 + 2 精彩帖子
h3327156 + 3 精彩帖子

总评分: 论坛币 + 101  学术水平 + 19  热心指数 + 19  信用等级 + 15   查看全部评分

使用道具

16
lishufangsmile 发表于 2012-12-1 13:55:11 |只看作者 |坛友微信交流群
gardenia_55 发表于 2012-12-1 12:47
lz要是能再把相对应的命令简单总结一下,绝对造福大众了~~~
未完待续~

使用道具

17
lzzzzlyy 发表于 2013-3-28 09:17:42 |只看作者 |坛友微信交流群
加油

使用道具

18
lilyupcool 发表于 2013-4-24 00:11:19 |只看作者 |坛友微信交流群
楼主,请教你一个问题.
我在用stata回归时,有个变量因存在共线性被剔除了,能做一个不剔出的设置么?
我看到有些帖子说在option里设置,但具体的我还是不晓得~~~

使用道具

19
ffyyll13 发表于 2013-6-14 12:40:10 |只看作者 |坛友微信交流群
支持你!

使用道具

20
ffyyll13 发表于 2013-6-14 13:47:30 |只看作者 |坛友微信交流群
lishufangsmile 发表于 2012-12-1 13:55
未完待续~
楼主 加油呀

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-25 16:26