[学习心得] Heckman两阶段模型原理与方法 [推广有奖]

11楼

17729542969 发表于 2024-7-15 11:33:19

芝麻粒芝麻粒发表于 2024-3-9 12:49
想问下，最终看IMR是否显著即可么？与IMR正负有关系吗？

请问您知道答案了嘛，IMR的正负号有什么影响呢？可以分享一些相关的参考文献嘛？盼复

12楼

赵安豆 发表于 2024-8-29 19:07:25

赫克曼的两阶段模型（Heckman's Two-Stage Model），也被称为赫克曼修正或选择性样本偏误校正模型，主要用于处理由样本选择偏差导致的数据分析问题。这种模型特别适用于当观测数据只来自满足某些条件的个体时，比如只有工作的女性、只有进行R&D投资的企业等。

### 第一阶段：Probit回归（选择方程）

在第一阶段中，需要构建一个预测某个事件发生概率的模型，即“选择方程”，使用Probit回归。这个方程的主要目的是估计观测值被选中的概率。例如，在研究女性工资受教育程度的影响时，首先会建立一个Probit模型来预测女性是否工作。

假设 $y^*$ 为潜在的工作决策变量（1表示工作，0表示不工作），则第一阶段的模型可以写成：

\[ y^* = X\beta + \varepsilon, \quad \varepsilon \sim N(0,\sigma^2) \]

其中 $X$ 是决定是否工作的因素集，可能包括教育水平、年龄等变量。我们观察到的是

\[ y_i =
\begin{cases}
1 & \text{if } y_i^* > 0 \\
0 & \text{otherwise}
\end{cases}
\]

Probit回归模型估计的是这些因素对个体是否进入样本（即是否工作）的影响。

### 第二阶段：矫正的OLS或MLM回归

在第二阶段，使用第一阶段的结果来校正因样本选择偏误造成的内生性问题。具体地，在这个阶段中，你将包括一个额外的变量——逆米尔斯比（Inverse Mills Ratio, IMR），它是由第一阶段Probit模型计算出来的。

IMR公式为：

\[ \lambda = \frac{\phi(z'\gamma)}{\Phi(z'\gamma)} \]

其中 $\phi$ 和 $\Phi$ 分别是标准正态分布的密度函数和累积分布函数，而 $z\gamma$ 是第一阶段Probit回归的预测值。这个IMR变量在第二阶段被加入到模型中作为额外的解释变量。

假设你要研究的是工资 $wage_i$ 与教育程度 $edu_i$ 的关系，则第二阶段的回归可以表示为：

\[ wage = \alpha + \beta_1 edu + \lambda\gamma + u \]

其中 $\lambda\gamma$ 就是上述IMR与它的系数。

通过这种方法，赫克曼两阶段模型能够有效地处理样本选择偏误问题，从而得到更准确的参数估计。

此文本由CAIE学术大模型生成，添加下方二维码，优先体验功能试用