[回归分析求助] 选择性偏误（selection bias）与样本选择偏差（sample self-selction）一样吗 [推广有奖]

31楼

HIT_CF 发表于 2021-10-18 16:44:20

夏目贵志发表于 2015-7-29 03:02
我不认为你这句话是对的。selection bias和sample selection bias一个意思。。。如果不是关于sample，难道 ...

我认为有所区别，选择偏差是混杂偏差和样本选择偏差的统称，两者并不是完全重合的

32楼

优雅的胖子

发表于 2023-5-24 10:31:01

1，（样本）选择性偏误（差）（（sample） selection bis）：我们并不是随机地获取核心解释变量x，数据呈现出的只是核心解释变量x整体的一个局限，导致样本“可能”并不代表总体。（样本）选择性偏误（差）“可能”会导致回归结果出现偏误，因为，必然有原因影响着我们不能随机地获取核心解释变量x，“这种原因”又“可能”影响着被解释变量y，如果我们无法在控制变量中控制这些原因，面临遗漏重要解释变量的偏误，引发内生性。
需要注意的是，第一，（样本）选择性偏误（差）（（sample） selection bis）并不一定引发内生性问题，因为上面我们说的“这种原因”如果不影响被解释变量y，那么就不会存在遗漏重要解释变量的偏误，就不会引发内生性问题了。第二，偏误并非只是内生性问题引发，样本不代表总体的话，你把研究结果从局限推到总体，也可能存在偏误。注意是“可能”，如果在我们不知情的情况下它稀里糊涂地、莫名其妙地、运气很好地、上帝安排地恰好能代表了样本整体，也不会存在“局限推到总体”的偏误了。

2.自选择（self selection）：核心解释变量x本身就不是随机存在的（核心解释变量自身的特殊性问题）。既然核心解释变量本身就不是随机存在的，我们可以肯定，一些因素必然影响着核心解释变量x。此时，我们可以质疑，第一，这些必然影响着核心解释变量x的因素，可能会影响被解释变量y，此时如果我们无法在控制变量中控制这些因素，面临遗漏重要解释变量的偏误，引发内生性。第二，这些必然影响着核心解释变量x的因素可能本身就包含着被解释变量y，而我们的模型做的是x对y的回归，面临核心解释变量x与y相互影响的问题，引发内生性。

3.（样本）选择性偏误（差）（（sample） selection bis）、自选择（self selection）和内生性的关系
经典的教科书上只列出了产生内生性的原因一共三种，核心解释变量x与被解释变量y相互影响、遗漏重要的控制变量（同时影响x和y的变量）、衡量偏误（数据质量问题），我不赞成把（样本）选择性偏误（差）（（sample） selection bis）和自选择（self selection）当作是内生性的原因，因为它们即便引发内生性问题，也归根到底是通过“核心解释变量x与被解释变量y相互影响”、“遗漏重要的控制变量（同时影响x和y的变量）”表现出来的。