人大经济论坛 › 论坛 › 计量经济学与统计论坛五区 › 计量经济学与统计软件 › 面板数据、工具变量选择和HAUSMAN检验的若干问题

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

12 3 下一页

发帖

楼主: pertain

11796 23

[学科前沿] 面板数据、工具变量选择和HAUSMAN检验的若干问题 [推广有奖]

25关注
29粉丝

院士

还不是VIP/贵宾

威望: 0 级
论坛币: 201917 个
通用积分: 3495.9037
学术水平: 29 点
热心指数: 30 点
信用等级: 19 点
经验: 46640 点
帖子: 1104
精华: 0
在线时间: 4136 小时
注册时间: 2004-11-13
最后登录: 2024-3-14

楼主

pertain

发表于 2010-4-27 12:17:49 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

不知道大家学习计量怎么样了，我这里整理了一些东西，贴在这里跟大家探讨

第一节关于面板数据PANEL DATA
1、面板数据回归为什么好
一般而言，面板数据模型的误差项由两部分组成，一部分是与个体观察单位有关的，它概括了所有影响被解释变量，但不随时间变化的因素，因此，面板数据模型也常常被成为非观测效应模型；另外一部分概括了因截面因时间而变化的不可观测因素，通常被成为特异性误差或特异扰动项（事实上这第二部分误差还可分成两部分，一部分是不因截面变化但随时间变化的非观测因素对应的误差项Vt，这一部分一般大家的处理办法是通过在模型中引入时间虚拟变量来加以剥离和控制，另一部分才是因截面因时间而变化的不可观测因素。不过一般计量经济学的面板数据分析中都主要讨论两部分，在更高级一点的统计学或计量经济学中会讨论误差分量模型，它一般讨论三部分误差）。
非观测效应模型一般根据对时不变非观测效应的不同假设可分为固定效应模型和随机效应模型。传统上，大家都习惯这样分类：如果把非观测效应看做是各个截面或个体特有的可估计参数，并且不随时间而变化，则模型为固定效应模型；如果把非观测效应看作随机变量，并且符合一个特定的分布，则模型为随机效应模型。
不过，上述定义不是十分严谨，而且一个非常容易让人产生误解的地方是似乎固定效应模型中的非观测效应是随时间不变的，是固定的，而随机效应模型中的非观测效应则不是固定的，而是随时间变化的。
一个逻辑上比较一致和严谨，并且越来越为大家所接受的假设是（参见Wooldridge的教材和Mundlak1978年的论文），不论固定效应还是随机效应都是随机的，都是概括了那些没有观测到的，不随时间而变化的，但影响被解释变量的因素（尤其当截面个体比较大的时候，这种假设是比较合理的）。非观测效应究竟应假设为固定效应还是随机效应，关键看这部分不随时间变化的非观测效应对应的因素是否与模型中控制的观测到的解释变量相关，如果这个效应与可观测的解释变量不相关，则这个效应成为随机效应。这也正是HAUSMAN设定检验所需要检验的假说。
非观测效应模型因为对非观测效应假设的不同，因为使用面板数据信息的不同，可以用不同方法来估计并且得到不同的估计量，一般有四个：
（1）组内估计量（WITHIN ESTIMATOR）（FE或FD: First Difference）
（2）组间估计量（BETWEEN ESTIMATOR）
（3）混合OLS估计量（POOLED OLS ESTIMATOR）
（4）随机效应估计量（RE，GLS或FGLS估计量）
这四个估计量因为假设和使用信息的不同而不同，各有优劣势，相互之间也有密切关系。3和4分别是1和2的加权平均；4在特定的假设分别可以转化成1和3；如果HAUSMAN检验表明4和1没有区别的时候意味着1和2没有区别。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享1 收藏25 回帖

关键词：Hausman检验 hausman ausman 面板数据工具变量特异性模型影响

本帖被以下文库推荐

· 计量.统计精彩问答|主题: 12506, 订阅: 52
· 日新文库：Stata入门及进阶|主题: 1226, 订阅: 457

使用道具举报

沙发

pertain

发表于 2010-4-27 12:18:13 |只看作者 |坛友微信交流群

RE假设未观察因素与解释变量是正交的，只不过在未观察因素里有两个部分，一是与个体单位有关的，二是完全随机的，RE在做估计的时候，是用这两个部分的方差计算出一个指数λ，来做quasi-demean，也就是说在去平均的时候是用原值的y或x减去λ乘以y或x的均值，然后用GLS估计。极端地，当λ 为0时，非观测效应是一个常数，并且所有个体都一样，就等价于Pooled OLS，当λ为1时，说明完全随机的部分可以忽略，所有未观察因素都是与单位有关的，于是就等价于FE。但FE不需要假定未观察因素与解释变量是正交的，在做FE时，固定效应都被差分掉了，所以也可得到consistent的结果。
PANEL数据的好处之一是，如果未观察到的是固定效应，那么在做DEMEAN时，未观察因素就被差分掉了。这样就可以减少由于未观察的因素可能与解释变量相关而导致的内生性问题。

2、那么PANEL的FE或RE分析就避免了内生性问题吗？
只能说好一些，如果内生的问题只是由于与单位有关的并不随时间变化的遗漏变量与解释变量有关造成的，这时，数据的差分就解决了问题，但是，别忘记还有一部分误差，如果这部分误差里包含的因素也可能影响解释变量，那么，差分只能解决前面讲的问题，由随机项里包括的因素与解释变量之间的关系导致的内生性问题还可能存在。

3、怎么办？
找IV解决。类似于在OLS基础上找IV，但对PANEL的工具应该具有PANEL结构，除非你基础的估计没有使用PANEL的方法，比如说对数据用了 pooled OLS方法，但能够用pooled OLS方法分析PANEL DATA的条件是很严格的。

使用道具举报

藤椅

pertain

发表于 2010-4-27 12:34:03 |只看作者 |坛友微信交流群

第二节  关于工具变量选择
1，       IV应该尽量是外生的（如历史/自然/气候/地理之类），它应该在理论上对被解释变量（以下称Y）没有直接影响，但应该通过影响被工具的变量（以下称X）而间接影响被解释变量Y。
2，       如果上述理论逻辑通的话，将内生变量X作为解释变量，IV和其他变量（X2）作为解释变量，看IV是否显著，它应该显著。如果选了多个IV，就用F TEST看其是否都不显著。同时，如果在多个IV中，有一个是确定为外生的，那么，可以用Sargan test of overidentifying restrictions来检验其他的 IV是不是确实是外生的。
3，       如果上述都没有问题，做一下IV回归。完成后，用HAUSMAN检验，这个检验的原假说是IV回归与原回归（不用IV的回归）的变量的系数并没有显著的不同。看一下P值，如果P小于比如说0.1，或者0.05，那么，说明IV回归与原来的回归显著不同，原来的方程的确有内生性问题导致的估计偏误。反之，如果P很高，超过0.1，或0.05，那说明IV回归与原来的回归没有显著不同，无法拒绝原来的回归没有显著的内生问题导致的估计偏误的原假设。
4，       如果选择的IV本身就影响Y，那它就不能被作为IV。例如，Y在左边，右边是X（被工具的），X2，IV。当IV被放在方程右边时，它最好是不显著影响Y 的。在Acemoglu（2001）里，他就检验了他们的IV是否直接影响被解释变量，结果说明不直接影响，于是这个IV是好的。当然，一个好的IV在前面的回归中也可能是显著的（不过一般如果理论和逻辑上IV是通过被工具的内生解释变量间接影响被解释变量的话，一般来说应该是被工具的内生解释变量使得 IV不显著，或者由于两者相关性很高，两者都不显著），但判断的标准还只是t值。这个变量显著完全有可能是因为它影响了其他显著的变量（比如被工具的变量），如果是这样，当包括了IV在原方程中以后，其他变量（特别需要注意的是被工具的变量X）的系数可能发生明显变化。

使用道具举报

板凳

pertain

发表于 2010-4-27 12:51:36 |只看作者 |坛友微信交流群

第四节举例
Acemoglu等人(2001)的文章是非常有代表性的使用工具变量的论文。他们试图验证制度对人均收入有影响，显然，直接做回归的话，制度就是内生的，因为好的制度可能在人均收入高的地方产生。他们找的工具变量是殖民地时代一个国家的死亡率，死亡率高欧洲人就不会定居下来，于是就会在当时建议掠夺性的制度，反之就会建立好的制度，而那时的制度对现在仍然有影响。
特别值得注意的是论文的6.3部分对于工具变量的有效性的检验。首先，他们用其他可行的变量作为替代来反复做IV回归，发现得到的结果与用死亡率作IV得到的结果基本相同。（这当然是不错的结果，但是，我认为这不是必要的，因为你并不一定能够找到其他的IV。）然后，他们将死亡率本身作为外生变量放在原回归里，发现它不显著地影响被解释变量，这说明它并不直接影响被解释变量。第三，他们把只用死亡率的IV结果和同时用死亡率和其他IV的结果进行卡方检验，发现它们没有显著不同，再次说明死亡率没有直接影响，也不是通过影响制度以外的其他变量影响被解释变量的。我认为这一步也不是必要的，因为如果你没有其他 IV，这一步也就没有办法做了。

使用道具举报

报纸

pertain

发表于 2010-4-27 12:52:22 |只看作者 |坛友微信交流群

补充说明
参数估计无偏是指参数估计量的均值或期望值等于参数真值，偏倚是两者的差异，即E( )- ；
参数估计效率（有效性）是指参数估计量的离散程度或精度，用参数估计量对其期望值的方差表示，即E[ -E( )]2；
参数估计的一致性指当样本容量趋向无穷大时，参数估计（无偏或者有偏）趋近于参数真值，也就是收敛于参数真值。

一般来说，参数估计的评价首先看无偏性，再比较有效性，这是评价参数估计量优劣的两个主要准则。两个无偏的估计量，方差比较小的估计量效率（精度）更高。
不过，在很多情况下，我们必须在估计量的偏差和方差之间做一定的选择。比如如果我们建模的目的是使预测精确度最大，方差很小而有偏差的估量可能比无偏而方差大的估计量要更好一些。在这种情况下，一个很有用的标准是比较参数估计的均方误差（也有翻译成平均偏差平方），小的比较好（均方误差最小准则）。
均方误差是同时考虑无偏性（偏倚）和有效性（精度）的指标，用参数估计值与真实值的偏差平方表示（不同于参数估计的方差是参数估计对其期望的偏差平方），即E( - )。均方误差可以分解为参数估计值的方差（有效性）和其期望对参数真值的偏差（无偏性）两部分。MSE（）=E( - )2=E[ -E( )]2 + [E( )- ]2=偏倚[ ]2+Var( )。当参数估计是无偏时，第二部分为零，均方误差就剩第一部分，等价于参数估计的方差。
均方误差由于同时考虑无偏程度和有效性，不仅可以用于无偏估计之间的比较，而且可以用于无偏估计和有偏估计之间的比较。而用有效性来评价估计优劣一般来说首先需要两个估计都是无偏的。
均方误差趋向于0意味着估计量是渐进无偏的，并且当样本容量非常大时，它的方差趋于0。事实上均方误差趋于0的估计量是一致估计量。

因此，如果遵循均方误差最小的准则来评价参数估计，那么，一个无偏的但当样本容量增大时始终对真值有比较大的离散度的参数估计，还不如一个有偏但均方误差更小的估计量更令人放心。

已有 1 人评分	学术水平	收起理由
mooncrystal	+ 3	精彩帖子

总评分: 学术水平 + 3 查看全部评分

使用道具举报

地板

pertain

发表于 2010-4-27 12:56:05 |只看作者 |坛友微信交流群

转载自http://www.soudoc.com/bbs/viewthread.php?tid=8755390

使用道具举报

7楼

变频侠 发表于 2010-4-27 13:02:36 |只看作者 |坛友微信交流群

先顶一顶。工具变量的第三步，IV回归是不是用IV代替内生变量X和被解释变量进行回归呀？

使用道具举报

8楼

espera2010 发表于 2010-4-29 15:32:48 |只看作者 |坛友微信交流群

判断是混合模型还是固定效应模型的时候，F统计量的标准是什么呢？初学者，谢谢高手解答

使用道具举报

9楼

ridelan 发表于 2010-5-17 14:08:39 |只看作者 |坛友微信交流群

顶一个啊，受教了

使用道具举报

10楼

flyingtytyty 发表于 2010-9-30 23:38:46 |只看作者 |坛友微信交流群

很有启发，最近正在找IV方面的资料，谢谢！

使用道具举报

返回列表

12 3 下一页

发帖

本版微信群

加好友,备注jltj
拉您入交流群

手机版 |

意见反馈 |

帮助 |

新手入门 |

用户手册 |

友情链接 |

如有投资本站、合作意向或投放广告，请联系：13661292478（刘老师）

联系客服

邮箱：service@pinggu.org 投诉或不良信息处理：（010-68466864）

京ICP备16021002-2号京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明

[学科前沿] 面板数据、工具变量选择和HAUSMAN检验的若干问题 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本帖被以下文库推荐

本版微信群

扫码加我拉你入群