楼主: 大多数88
2081 79

[经济学] 利用数据挖掘变量实现可靠的因果推断:一个随机模型 [推广有奖]

21
能者818 在职认证  发表于 2022-4-26 14:42:57 |只看作者 |坛友微信交流群
因此,该模拟装置代表了一个现实场景,“噪声”的变化与“信号”的变化相当。我们保持真实回归系数固定,即β=1、βlnCnt=0.5、βZ=2、βZ=1,以量化估计偏差的程度和任何修正的有效性。上述模拟程序重复100轮。在每一轮模拟中,根据数据的随机分割(如前所述)构建一个随机森林模型,并为经济估算生成一个艺术数据集。具体地说,我们首先估计了有偏回归Y~ β+β\\lnCnt+βZ+βZ,其中\\lnCnt是来自该轮随机林的聚合预测。这正是如果我们直接在计量经济模型中使用机器学习预测的协变量,而不考虑测量误差(通常情况下)所能做到的。然后,我们应用ForestIV获得修正系数。因为在每一轮模拟中都会画出一个独立的{Dtrain,Dtest,Dunlabel}集,所以100轮模拟中的ForestIV估计值自然形成了经验抽样分布。我们将抽样分布的标准差报告为ForestIV估计的标准误差。最后,除了有偏估计和ForestIV估计外,我们还报告了我们从bootstrap方法中获得的标准误差,并注意到估计几乎相同。直接在Dlabel上运行回归的无偏估计。3.2基本模拟结果我们提供了一些描述性证据,说明我们的两步套索回归程序在从附录e中的候选工具中选择有效且强大的工具方面的有效性。1.

使用道具

22
大多数88 在职认证  发表于 2022-4-26 14:43:03 |只看作者 |坛友微信交流群
接下来,我们在图3.2中绘制了所有100次模拟运行中lnCnt(即机器学习产生的协变量)的有偏、无偏和ForestIV估计的抽样分布。我们在附录E.2.0.3 0.4 0.5 0.6 0.70 5 10 15 LNCNTDensityBiasedUnbiasedForestIV系数中报告了完整的结果。图1:100次模拟运行中LNCNT的有偏、无偏和ForestIV估计的分布我们进行了几次观察。首先,在回归模型中直接使用随机森林预测的结果显然会导致偏差。lnCnt的效率平均被高估。其次,与偏差回归相比,ForestIV有效地缓解了lnCnt的估计偏差。第三,与无偏估计相比,ForestIV估计具有“更窄”的分布(即,标准误差更小),表明估计精度显著提高。我们进行了几次敏感性分析,以了解ForestIV在几个参数方面的性能。我们将敏感性分析得出的关键见解总结如下,同时参考附录E。3.详细的结果。首先,我们检查ForestIV估计值如何随着未标记数据集的大小增加而变化(附录E.3.1)。这有助于说明ForestIV估计的渐近性质。我们发现,随着更多未标记数据的添加,ForestIV估计值收敛,置信区间变小。与无偏估计相比,收敛估计实质上减少了偏差,并获得了更小的标准误差。其次,我们进一步增加了用于经济计量估计的数据中的噪声量,并检查了ForestIV的相应性能(附录E.3.2)。虽然ForestIV估计的标准误差越来越大,但我们仍观察到有效的偏差校正。

使用道具

23
大多数88 在职认证  发表于 2022-4-26 14:43:09 |只看作者 |坛友微信交流群
第三,我们改变了随机森林模型中的树木总数,发现ForestIV需要一个相当大的森林才能表现良好(附录E.3.3)。此外,霍特林的统计数据被证明是一个有用的指标,有助于确定随机森林的大小。最后,我们实施并经验性评估了三种更值得注意的替代设计选择的相对效益:(i)样本分割(附录E.4.1),(ii)使用树木子集的预测作为内生协变量和工具(附录E.4.2),以及(iii)对所有未被HotellingTtest拒绝的ForestIV估计进行平均(附录E.4.3)。我们建议读者参考附录,详细讨论每种基于模拟的贬值。总的来说,我们发现这些替代设计中没有一个比我们提出的ForestIV方法更好(至少在我们的自行车共享数据和相关模拟设置的背景下)。也就是说,在某些条件下,这些替代品中的一种或多种仍有可能产生改进,并且每种都有希望成为未来工作中进一步探索的途径。4.ForestIV关于二元内生协变量在本节中,我们将讨论二元误分类(因此是内生)协变量的情况,这将由机器学习分类模型生成。事实证明,ForestIV仍然显示出生成(和选择)工具变量的能力,这些工具变量可以产生更好的估计,尽管其基本机制与连续内生协变量的情况有所不同。4.1理论结果假设二元结果标签的值可以是0(负类)或1(正类)。考虑一个具有M个决策树的随机森林分类器。我们再次使用符号X、bX和bX(i)来表示地面真相、森林预测和单株树i的预测。

使用道具

24
kedemingshi 在职认证  发表于 2022-4-26 14:43:16 |只看作者 |坛友微信交流群
单个树i的预测误差定义为e(i)=bX(i)- X.对于任何给定的数据点,e(i)可以取三个可能的值:0(正确预测)、1(假阳性)和-1(假阴性)。同时,根据计量经济学文献,例如Angrist和Pischke(2008),具有二元内生协变量的工具变量可以以与连续情况相同的方式应用;也就是说,将变量视为连续变量,并将emp loy视为2SLS估计。2SLS估计的第一阶段相当于线性概率模型el。从第一阶段回归中恢复的内生协变量的预定值反映了连续类概率的外生变化。这些值将用于第二阶段回归。直观地说,为了评估来自一棵树j的预测是否可以作为来自另一棵树i的预测的有效工具,我们需要评估(1)Cov(bX(i),bX(j))(相关条件)和(2)Cov(e(i),bX(j))(排除限制)。第一个条件通常是满足的,因为一个表现良好的森林中的两棵树在某种程度上都可以预测结果,即Cov(bX(i),bX(j))6=0。第二个条件可以写成Cov(e(i),e(j)+X)。因此,我们接下来提供了几个理论结果来分别描述Cov(e(i),e(j))和Cov(e(i),X)。定理2。随机森林二元分类的错误率随着ejecicorr(|e(i)|,|e(j)|)而降低,其中e(i)和e(j)是树i和树j(i6=j)的预测误差。所有证据均包含在附录H中。这个定理表明,一个表现良好的随机森林会有相对较小的Corr(|e(i)|,|e(j)|)。通常,由于Corr(|e(i)|,|e(j)|)6=Corr(e(i),e(j)),该结果似乎表明仪器有效性的排除限制Cov(e(i),e(j)+X)=0不满足。

使用道具

25
能者818 在职认证  发表于 2022-4-26 14:43:22 |只看作者 |坛友微信交流群
然而,以下两个定理表明Cov(e(i),X)总是非零的(即,经典的测量误差假设对于二进制误分类是不正确的),可以设置或取消Cov(e(i),e(j)),从而使排除条件变得合理。定理3。我∈ {1,…,M},Cov(e(i),X)<0。为了简单起见,将X=α,bX(i)=β,bX(j)=γ的概率表示为pαβγ(α,β,γ∈ {0,1}),并表示X=α为pα的概率。定理4。i 6=j∈ {1,…,M},Cov(e(i),e(j))>0 i f且仅当(p+p)(p+p)+2(p0o)- p) p+2(p1o)- p) p+(p- p) (p- p) >0。理论3表明,一棵树的预测误差总是与地面真相负相关。理论4表明,除了少数几个角落的情况外,两棵独立树的预测误差之间的相关性是正的。因此,Cov(e(i),X)可能会影响Cov(e(i),e(j)),从而导致相对较小的Cov(e(i),e(j)+X值。换句话说,对于随机森林分类产生的二元内生协变量,其他树的预测仍然可以作为工具变量。4.2模拟实验我们使用银行营销数据(Moro等人,2014年)作为示例数据集,展示了ForestIV在二元分类情况下的性能,该数据集包含45211条与银行电话营销工作相关的记录。我们将数据随机分为1500个观测值作为数据训练,500个观测值作为数据测试,剩下的43211个观测值作为Dunlab。使用培训数据,我们构建了一个由100棵树组成的随机森林分类,以预测二元结果存款,代表客户是否因电话预订了定期存款,基于描述客户和营销活动的16个属性。

使用道具

26
能者818 在职认证  发表于 2022-4-26 14:43:28 |只看作者 |坛友微信交流群
这个数据集是一个例子,说明了机器学习如何能够对直销或客户关系管理中的问题进行实证研究。Cov(e(i),e(j))<0的一种情况是当p=p=0和(p- p) (p- p) <0,这意味着两棵树的预测不会同时出错,而且它们的错误分类模式满足严格条件。这种情况不容易实现。这在我们使用银行营销数据的模拟实验中得到了实证支持,下一节将讨论这一点。特别地,任意两棵树的预测误差之间的平均协方差Ei6=jCov(e(i),e(j))为0.071(相关性为0.465)。同时,一棵树的预测误差与地面真值EiCov(e(i),X)之间的平均协方差为-0.079(相关性为-0.601)。因此,一棵树的预测与另一棵树的预测误差之间的平均协方差Ei6=jCov(e(i),bX(j))仅为-0.008(相关性为-0.061)。接下来我们模拟一个经济计量模型:Y=1+0.5存款+2Z+Z+ε,其中Z~ 制服[-1,1],Z~ N(0,1)和ε~ N(0,4)。和之前一样,我们重复了100轮模拟。在每一轮中,我们估计有偏回归(直接使用回归中的随机森林预测)、在Dlabel上获得的无偏回归,以及在Dunlabel上通过ForestIV程序获得的校正系数。我们在图4中绘制了有偏、无偏和d ForestIV估计的分布。2,并在附录F中报告完整结果。1.0.0 0.2 0.4 0.6 0.8 1.00 1 2 3沉积效率偏差无偏森林图2:100次模拟运行中有偏、无偏和森林估计的分布与之前的模拟相比,我们观察到在回归中直接使用随机森林的预测会导致严重的偏差。

使用道具

27
可人4 在职认证  发表于 2022-4-26 14:43:35 |只看作者 |坛友微信交流群
存款的效率被低估了。ForestIV再次有效地缓解了偏见。最后,与无偏估计相比,ForestIV在估计精度上获得了提高,这一点可以从其“更窄”的分布中看出。总的来说,这组模拟证实了ForestIV对二元内生协变量的有效性。我们重复之前在持续协变量研究中进行的所有敏感性分析,并观察一致的见解。所有结果见附录F。2.除了上述模拟实验外,我们还进行了基准分析,以比较ForestIV与现有文献中其他三种方法的相对校正性能:SimulationExtrapolation(SIMEX、Cook和Stefanski,1994)、潜在仪器变量(LatentIV、Ebbes等人,2005),非参数生成回归的回归调整(Meng et al.,2016)。首先,SIMEX是一种替代性纠正方法,之前已经证明在相同的问题背景下表现良好。我们进行了两组模拟,以表明ForestIV比SIMEX具有更好的校正性能。我们还发现,当计量误差与计量经济模型中其他精确测量的协变量相关时,SIMEX校正程序中会出现系统性的“盲点”。虽然SIMEX会在存在这种相关性的情况下产生可证明错误的校正结果,但实证结果表明,我们的ForestIV方法不受这种限制。其次,采用最新方法,对潜在的工具变量进行建模,并与主回归进行联合估计,以解决内生性问题。我们的模拟再次表明,Forestiv在偏差校正方面优于LatentIV。第三,在生成回归的文献中,孟等人。

使用道具

28
nandehutu2022 在职认证  发表于 2022-4-26 14:43:41 |只看作者 |坛友微信交流群
(2016)提出了一种明确调整系数估计的方法,以解释线性回归中因测量误差而产生的偏差,该偏差源自错误测量的非参数生成回归。再一次,我们的模拟显示ForestIV在偏差校正方面优于这种方法。因此,总的来说,在我们的模拟实验中,ForestIV的表现优于所有三个基准(详情见附录G)。5结论和未来工作总结,我们引入了一种新方法ForestIV,它解决了回归估计中的偏差,其归因于数据挖掘协变量中的(预测)测量误差。有了一个连续的内生协变量,ForestIV背后的直觉是,一个高性能的随机森林将由(i)树组成,这些树在各自的预测中是准确的,因此“重叠”,提供数据挖掘变量中真实、外源变化的“重复测量”,以及(ii)在预测误差中表现出低相关性的树,这与前一点一致,意味着树会犯“不同”的错误,从而嵌入正交测量误差。我们的方法与使用多个易出错度量作为工具变量的想法密切相关(例如Black burn和Neumark,1992;Hausman等人,1995;Lewbel,2019)。对于二元内生协变量,虽然树不再必然具有低误差相关性,但我们表明,工具的有效性仍然是合理的。我们的方法在经验背景下的应用有可能提高估计的精度和稳健性,从而提高后续决策。

使用道具

29
nandehutu2022 在职认证  发表于 2022-4-26 14:43:48 |只看作者 |坛友微信交流群
同时,我们的方法显示了基于集成学习技术自动生成候选工具的可能性,这补充了关于使用机器学习方法进行因果推理的新兴文献(例如,Athey和Imb ens,2016;McFowland III等人,2018)。ForestIV的核心是估计员的偏差和方差之间的基本权衡,它们共同描述了其统计风险。ForestIV试图提供一个总体风险较低的估计值,其偏差比有偏回归低得多,方差比无偏回归低得多。我们在附录I中提供了在实践中使用ForestIV的几个额外指南。有几个未来的研究方向值得追求。例如,虽然本文侧重于从给定的随机林中选择有效且强大的工具,但未来的工作可能会考虑利用一种专门的随机林算法,该算法明确旨在最小化个体树中的预测误差相关性。旋转森林算法(Blaser和Fryzlewicz,2016)和动态随机森林算法(Bernard等人,2012)代表了两种这样的尝试。另一个追求的方向是更广泛地将ForestIV推广到基于bagging的机器学习模型。

使用道具

30
nandehutu2022 在职认证  发表于 2022-4-26 14:43:54 |只看作者 |坛友微信交流群
直觉上,由于bagging模型中的个体学习者在训练数据的不同引导样本上进行训练,他们可能会产生相关预测和弱相关预测错误。未来的工作可以调查一般的装袋模型是否能产生有用的工具,个体学习者的类型(例如,决策树或其他技术)是否影响工具的有效性,以及这些替代组合相对于ForestIV的表现。附录A相关文献计量经济学文献对计量误差问题进行了广泛研究。在回归模型中,独立协变量的测量误差是内生性的一种形式(Greene,2003),并且已知会导致有偏的系数估计,不仅是对错误测量的协变量,还包括与其他变量相关的系数,在同一回归中出现的精确测量的协变量(除非精确测量的协变量严格独立于测量误差)。与普遍认为(错误持有的)测量误差只会衰减错误测量的协变量的系数(即偏向零)的观点相反,偏差的实际方向很难预测,尤其是随着计量经济学规范或测量误差的结构变得更加复杂(Gustafson,2003;Schennach,2016;Yang等人,2018)。一般来说,忽略测量误差可能会导致系数估计的符号、幅度和统计意义上的误差。A.1工具变量方法工具变量是解决测量误差问题的标准方法;它们可用于两阶段最小二乘估计,以减轻相关的估计偏差。在这种情况下,有效的仪器将与错误测量的协变量相关,而不是其测量误差。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-10-5 23:28