|
1,(样本)选择性偏误(差)((sample) selection bis):我们并不是随机地获取核心解释变量x,数据呈现出的只是核心解释变量x整体的一个局限,导致样本“可能”并不代表总体。(样本)选择性偏误(差)“可能”会导致回归结果出现偏误,因为,必然有原因影响着我们不能随机地获取核心解释变量x,“这种原因”又“可能”影响着被解释变量y,如果我们无法在控制变量中控制这些原因,面临遗漏重要解释变量的偏误,引发内生性。
需要注意的是,第一,(样本)选择性偏误(差)((sample) selection bis)并不一定引发内生性问题,因为上面我们说的“这种原因”如果不影响被解释变量y,那么就不会存在遗漏重要解释变量的偏误,就不会引发内生性问题了。第二,偏误并非只是内生性问题引发,样本不代表总体的话,你把研究结果从局限推到总体,也可能存在偏误。注意是“可能”,如果在我们不知情的情况下它稀里糊涂地、莫名其妙地、运气很好地、上帝安排地恰好能代表了样本整体,也不会存在“局限推到总体”的偏误了。
2.自选择(self selection):核心解释变量x本身就不是随机存在的(核心解释变量自身的特殊性问题)。既然核心解释变量本身就不是随机存在的,我们可以肯定,一些因素必然影响着核心解释变量x。此时,我们可以质疑,第一,这些必然影响着核心解释变量x的因素,可能会影响被解释变量y,此时如果我们无法在控制变量中控制这些因素,面临遗漏重要解释变量的偏误,引发内生性。第二,这些必然影响着核心解释变量x的因素可能本身就包含着被解释变量y,而我们的模型做的是x对y的回归,面临核心解释变量x与y相互影响的问题,引发内生性。
3.(样本)选择性偏误(差)((sample) selection bis)、自选择(self selection)和内生性的关系
经典的教科书上只列出了产生内生性的原因一共三种,核心解释变量x与被解释变量y相互影响、遗漏重要的控制变量(同时影响x和y的变量)、衡量偏误(数据质量问题),我不赞成把(样本)选择性偏误(差)((sample) selection bis)和自选择(self selection)当作是内生性的原因,因为它们即便引发内生性问题,也归根到底是通过“核心解释变量x与被解释变量y相互影响”、“遗漏重要的控制变量(同时影响x和y的变量)”表现出来的。
|