横截面的数据:这一类的数据表示的是在一个时点上的数据,从总体中抽样调查,并且服从iid(独立同分布的假定)。这样就不会出现在经典计量经济学中的序列相关的问题。但是必须重视异方差的问题。异方差主要是说明残差项和自变量相关。这种问题主要是遗漏变量、测量误差问题。
遗漏变量问题的讨论,如存在不可测的变量或者是存在遗漏的问题,一般的估计情况不是乐观的。特别是遗漏的变量和自变量之间存在相关的关系,那么一般而言,在ols方法之下的估计是有偏的。而且是整体的参数有偏,不是相关的参数有偏,主要存在这种问题的是“无完全的多重共线性的假定”。在现代观点之下,对参数的估计一般而言可以容忍自变量之间存在一定的多重共线性。所以估计出来的参数在一定的程度上是有偏的。那么处理这种遗漏变量的方法是使用替代变量的方法。就是选择一个和因变量无关的,但是和自变量相关的替代变量,比如我们要研究学习成绩和天赋之间的关系,那么我们没有办法度量天赋的程度,我们只能选择一个变量来替代它比如IQ。这样在某种程度上可以减少偏误,这里我用的语言是减少,而不是完全消除,因为代理变量不是遗漏的原始变量,只是在两者的关系上,存在高度的相关性。这就存在这个问题,使用代理变量是好事情,尽管没有好到我们预期的那样,但是始终是比没有使用的时候好。
测量误差的问题:对于测量误差的问题的讨论,现在我认为误差产生的原因如果和实际值之间无关,那么这种情况之下,没有必要过分紧张的认为出现问题,他会增加随即误差的方差,但是不会影响其它的性质。但是如果测量误差和观测值之间没有关系,那么问题也就比较严重。
- 解决办法:
隐性变量问题或者是变量不可测的问题:在这类问题之下,如果我们的数据来源比较的单一,只有横截面的数据,那么我们比较好的方法是利用2SLS的方法来解决问题,在一般的计量经济学教科书中,这种方法主要是针对联立方程组而使用的。比如存在一个变量能力,这个东西我们没有办法得到直接的测量数据(因为没有对能力侧度的较好的指标),我们估计学习成绩(综合测评分数)与上课的出勤率、高考分数、年龄等之间的回归问题,但是很显然学习成绩是和能力有关系的,如果我们没有办法得到能力的数据,那么能力就只能方到随机误差里面来考虑,但是如果有一种方法能在某种程度上对能力最一些刻画,那么不是更好吗。比如我们认为IQ可以在某种程度上标明能力的大小,或者是选择EQ,这个取决做计量经济学的人和数据的情况。在某种程度上我们选择的这些IQ或者EQ称之为代理变量,这些变量不可能完全表现我们所直接需要的变量如能力,但是最起码有这些变量比没有这些变量要好一些。如果我们的目标是研究出勤率对成绩的影响问题,那么我们得到的偏效应也就会好一些,或者说更加地准确。
from:http://blog.163.com/wxhzwx_xyc/b ... 121200792973430814/