工具变量(IV)的匹配是因果推断中的关键步骤,其目的是解决内生性问题(如遗漏变量、测量误差或双向因果)。
1. 工具变量的核心条件
工具变量 \( Z \) 必须满足两个核心假设:
- 相关性(Relevance):\( Z \) 与内生解释变量 \( X \) 强相关(需统计检验,如第一阶段回归的F统计量>10)。
- 外生性(Exogeneity):\( Z \) 与误差项 \( \epsilon \) 不相关,即 \( Z \) 只通过 \( X \) 影响因变量 \( Y \)(需理论或证伪检验)。
2. 匹配步骤与验证方法
步骤1:寻找候选工具变量
- 来源:外生政策变化(如政策试点)、自然实验(如气候、地理)、历史事件、分组差异(如双胞胎研究)。
- 示例:
- 研究教育对收入的影响:用“到大学的距离”作为教育的IV(需假设距离仅通过教育影响收入)。
- 研究吸烟对健康的影响:用“烟草税”作为吸烟量的IV(假设税只通过吸烟影响健康)。
步骤2:检验相关性(第一阶段)
- 回归模型:\( X = \alpha + \pi Z + \gamma W + \nu \),其中 \( W \) 为控制变量。
- 检验标准:
- 弱工具变量检验:第一阶段F统计量需>10(Stock-Yogo检验),否则估计有偏。
- 符号与预期一致:\( \pi \) 的符号需符合理论(如“大学距离”系数应为负)。
步骤3:检验外生性(过度识别检验)
- 若工具变量多于内生变量(过度识别):使用Sargan-Hansen检验(原假设:所有IV外生)。
- 若拒绝原假设,则至少一个IV无效。
- 恰好识别时(IV数量=内生变量数量):需依赖理论论证,无法统计检验。
步骤4:处理异质性与稳健性
- 局部平均处理效应(LATE):IV估计的是“受工具变量影响的群体”的因果效应(如“仅因距离近而上大学的人”)。
- 证伪检验:
- 检查IV是否直接影响 \( Y \):回归 \( Y = \beta_0 + \beta_1 Z + \delta W + \epsilon \),若 \( \beta_1 \neq 0 \) 则IV无效。
- 子样本稳健性:在理论上不受IV影响的子样本中,检验 \( Z \) 与 \( Y \) 是否相关(如“无大学意愿者”中,距离不应影响收入)。
---
3. 操作实例(Stata/R代码)
Stata示例
```stata
ivregress 2sls Y (X = Z) W, robust // 两阶段最小二乘
estat firststage // 检验弱工具变量
estat overid // 过度识别检验
```
R示例(AER包)
```r
library(AER)
iv_model <- ivreg(Y ~ X + W | Z + W) # 公式:因变量 ~ 内生变量 + 控制变量 | 工具变量 + 控制变量
summary(iv_model, diagnostics = TRUE)
```
---
4. 常见陷阱与解决方案
| 问题 | 解决方案 |
|-------------------------|---------------------------------------|
| 弱工具变量(F<10) | 寻找更强的IV或合并多个弱IV(LIML估计)|
| 外生性违反 | 加入控制变量、证伪检验、更换IV |
| 异质性偏差(LATE≠ATE) | 明确报告IV估计的适用人群 |
---
5. 总结流程图
```mermaid
graph TD
A[寻找候选IV] --> B{相关性检验(第一阶段)}
B -->|F>10| C{外生性检验}
B -->|F<10| D[寻找更强IV]
C -->|通过检验| E[IV估计有效]
C -->|未通过| F[更换或补充IV]


雷达卡


京公网安备 11010802022788号







