这个数据集是一个例子,说明了机器学习如何能够对直销或客户关系管理中的问题进行实证研究。Cov(e(i),e(j))<0的一种情况是当p=p=0和(p- p) (p- p) <0,这意味着两棵树的预测不会同时出错,而且它们的错误分类模式满足严格条件。这种情况不容易实现。这在我们使用银行营销数据的模拟实验中得到了实证支持,下一节将讨论这一点。特别地,任意两棵树的预测误差之间的平均协方差Ei6=jCov(e(i),e(j))为0.071(相关性为0.465)。同时,一棵树的预测误差与地面真值EiCov(e(i),X)之间的平均协方差为-0.079(相关性为-0.601)。因此,一棵树的预测与另一棵树的预测误差之间的平均协方差Ei6=jCov(e(i),bX(j))仅为-0.008(相关性为-0.061)。接下来我们模拟一个经济计量模型:Y=1+0.5存款+2Z+Z+ε,其中Z~ 制服[-1,1],Z~ N(0,1)和ε~ N(0,4)。和之前一样,我们重复了100轮模拟。在每一轮中,我们估计有偏回归(直接使用回归中的随机森林预测)、在Dlabel上获得的无偏回归,以及在Dunlabel上通过ForestIV程序获得的校正系数。我们在图4中绘制了有偏、无偏和d ForestIV估计的分布。2,并在附录F中报告完整结果。1.0.0 0.2 0.4 0.6 0.8 1.00 1 2 3沉积效率偏差无偏森林图2:100次模拟运行中有偏、无偏和森林估计的分布与之前的模拟相比,我们观察到在回归中直接使用随机森林的预测会导致严重的偏差。
|