经管之家用户:u200816133
请参见http://www.stata.com/support/faq ... ple-selection-bias/
值得注意的是,"选择性偏误(selection bias)"与"样本选择偏误/自选择(sample selection bias/self selection)"不一样,前者指的是"内生性"。
经管之家用户:冬日的碧雪
样本的选择会产生内生性,truncated或者censored sample会导致估计方程regressor与error term相关,所以OLS是有偏的
知乎作者:LCHEN
简单地回答:在 treatment effects 文献中,这两者是同一个问题的不同表述。
假设 Y(1) 是 接受 treatment 后的结果, Y(0)是没有接受 treatment 的结果,D=1 代表接受 treatment, 否则 D=0。 我们普遍关心的是 Average Treatment Effects (ATE): E[Y(1)-Y(0) ]。
在最理想的情况下 -- ideal randomized experiment,D 是外生的,或者说:是否接受 treatment是一个和任何其他因素不相关的变量。在这种情况下,我们说不存在 selection bias。我们可以将 Y=Y(1)*D + Y(0)*(1-D) 直接回归到 D 而得到ATE的一致估计。
在现实情况中,D往往是内生的,或者说:是否接受 treatment是一个和某些其他因素相关的变量。在这种情况下,我们说会有 selection bias,导致OLS不是一致的。
通俗地讲:如果D是外生的,那么 control group 和 treatment group 的人群特征是一样的,直接比较两个群体的平均结果就可以得到ATE。但如果D是内生的,control group 和 treatment group 的人群特征不一样,这两组的平均结果的差别可能是其他因素造成的。
举个经典的例子: 我们想知道,接受高等教育能不能带来更高的收入。通常的做法是比较一群高中毕业的人和一群大学毕业生的工资。在现实中,我们是不能安排别人的教育水平的,因此是否接受大学教育这一 treatment 是和很多个人和家庭因素相关的 --- 有没有上大学这一变量是内生的。换个说法,大学毕业生和没上过大学的人的很多条件都是不一样的(比如父母收入,父母受教育水平,智商。。。),这叫 selection bias。因此,即使我们发现大学生的平均工资比没上过大学的人的平均工资高,也不能得出上大学可以提高收入的结论,因为这个出现这个差异有可能是仅仅是因为上大学的人平均智力水平高,而上大学本身并不能帮助我们提高收入 。
知乎作者:慧航
selection bias是内生性的一种特殊情况。比如最经典的设定:
Y*只有在D=1的时候才能被看到,在Z的某些外生性假定下,可以得到:
也就是说,真实看到的Y实际上是:
如果直接做OLS,忽略了ρ,而ρ又是跟X相关的,所以OLS的regressor跟误差项相关了。所以从这个方面来说,选择偏差就是遗漏变量带来的内生性问题。