|
双重机器学习(Double Machine Learning, DML)方法不要求核心解释变量必须是0-1的二值变量。虽然很多研究中应用双重机器学习方法时,核心解释变量(treatment variable)是政策的影响,这通常表现为一个二值变量(例如是否接受政策干预:1代表接受,0代表未接受),但这并不意味着该方法只能用于处理二值变量的场景。
核心解释变量为连续变量的情况
双重机器学习方法的理论框架能够处理核心解释变量是连续变量的情形。这种情况下:
核心解释变量可以是任何形式的数值变量,例如一个特定指标的水平、时间序列中的观测值或其他连续的特征。
只要问题符合因果推断的需求,并且满足DML方法的关键假设(如条件独立性假设、平滑性假设),双重机器学习都可以适用。
例如,在分析经济政策的影响时,核心解释变量可以是:
税率的水平(连续变量)。
某种经济刺激的规模(连续变量)。
某种环境变量(例如温度、污染水平)。
理论支持
双重机器学习的核心思想是结合机器学习方法解决传统因果推断方法中的偏误问题,同时保持参数估计的解释性。无论核心解释变量是二值变量还是连续变量,DML都会遵循以下两个阶段:
第一阶段:通过机器学习方法对控制变量(confounders)的高维模型进行拟合,估计核心解释变量和结果变量的偏差。
对于连续的核心解释变量,会使用回归模型来估计核心解释变量对结果变量的关系。
第二阶段:从第一阶段的估计中提取核心解释变量的影响,并调整控制变量的干扰,实现对核心参数的无偏估计。
实际应用
对于核心解释变量是连续变量的情况,通常需要调整模型中因果推断框架的表示:
如果采用工具变量(IV)方法,则工具变量本身需要满足相关性假设和排他性假设。
在非参数设置下,通过正则化或惩罚项来控制估计中的偏差。
注意事项
条件独立性假设:需要确保核心解释变量与结果变量之间的关系在控制所有混杂变量后是可识别的。
机器学习模型选择:适当选择机器学习方法(如Lasso、随机森林、神经网络)来估计偏差。
偏误校正:使用目标变量的残差回归来校正模型中可能存在的偏差。
文献支持
许多理论研究和应用都表明,双重机器学习适用于连续变量的因果推断。例如:
Chernozhukov等人在其开创性的论文《Double/Debiased Machine Learning》明确表明,DML可以用于线性和非线性框架下的核心解释变量,无论其是离散还是连续。
相关应用中,DML被用于估计例如教育年限(连续变量)对收入的影响,污染水平(连续变量)对健康的影响等。
总结
双重机器学习不局限于核心解释变量为二值变量的场景,对于连续变量同样适用。关键在于满足方法的基本假设,并合理地对数据中的偏差和混杂因素进行控制。
|