楼主: 大多数88
2998 79

[经济学] 利用数据挖掘变量实现可靠的因果推断:一个随机模型 [推广有奖]

11
kedemingshi 在职认证  发表于 2022-4-26 14:41:47
有效工具W应满足两个条件:(A)Cov(W,bX)6=0,即该工具与内生(误测)回归因子相关(即相关条件);和(b)Cov(W,ε)-eβX)=0,即仪器与回归误差项(即排除条件)不相关。回想一下,ε在(1)中是外生的,这是真正的潜在回归方程。因此,条件(b)相当于cov(W,e)=0,即有效仪器与测量误差inbX不相关。现在假设我们用bx(i)替换bx(即预测森林中的个体树i),W≡bX(j)(即对森林中个体树木的预测)。我们有Cov(bX(i),bX(j))=var6=0,满足条件(a),和Cov(e(i),bX(j))→ 0 asn→ ∞ (理论1),满足条件(b)。因此,bX(j)是bX(i)的渐近有效工具。更一般地说,定理1告诉我们,在温和的假设下,在一个随机的mtree森林中,我们可以使用任何一棵独立树的预测作为回归模型中的内生协变量,并使用另一棵树的预测- 1.森林中的个体树木作为有效工具。虽然这一结果为随机森林算法作为有效工具的生成器提供了有价值的理论基础,但我们还不知道在什么样的样本量下,渐近性质会表现出来。因此,在有限的样本量下,我们只能将单个树木视为候选工具,我们必须采取额外的步骤来确定这些潜在工具中哪些提供了已达到其渐近状态的证据。此外,渐近结果表明,在有限的数据中,所有的树木都是其他所有树木的有效工具。

12
能者818 在职认证  发表于 2022-4-26 14:41:53
然而,在实践中,只需要一对(内生且有效的工具化)树,即使在有限的数据中,这(给出渐近结果)也似乎是合理的。我们注意到,在有限样本中,上述关于随机森林的渐近结果实际上也反映在经验证据中。例如,Bernard等人(2010年)表明,随机森林的性能在统计学上随着个体内树的准确性的提高而提高,并且它们的预测误差之间的相关性降低。换句话说,表现良好的随机森林应该由相对准确(高强度)且只有弱相关误差(低相关性)的单株树组成(Breiman,2001)。我们观察到,高强度和低相关性与有效仪器变量的要求密切相关。这突出了ForestIV的一个有趣且可能违反直觉的特点。由于一棵树的预测性能通常比整个随机森林的预测性能差,我们可能会通过将一棵树的预测作为内生协变量(而不是整个森林的聚合预测)来诱导更大的估计偏差。然而,这种最初的牺牲伴随着将其他树的预测作为工具进行平均化的机会,以解决估计偏差。

13
能者818 在职认证  发表于 2022-4-26 14:41:59
换句话说,出于因果推理的目的,更细致地使用整个随机森林集合(而不是传统地使用其聚合预测)可以缓解模型预测中不可避免地存在的测量误差。2.4选择校正工具在实践中,当使用随机森林中一棵重点单株树的预测作为内生协变量时,出于几个原因,只需要选择其他树预测的一个子集作为工具。首先,当只有一组有限的训练数据时,不太可能所有其他树都已达到聚焦树有效仪器的(渐近)状态。其次,由于使用有限数据构建随机森林的随机性,即使是有效的工具也可能偶然失效,即经验上Cov(e(i),bX(j))很大。第三,使用过多的工具可能会导致内生变量的过度拟合,包括研究人员试图消除的内生成分,并造成估计挑战(Roodman,2009)。最后,同样由于随机森林构建中的随机性,尽管满足排除要求,但一些工具可能与内生协变量只有微弱的相关性。将这些较弱的工具纳入工具变量回归可能会适得其反,产生有偏差且不一致的估计(Hausman,2001)。在我们的环境中,因为我们可以访问一组标记的数据,所以我们可以根据经验评估仪器的有效性,以获得一致性。因此,在从随机森林中的每一棵树获得预测后,我们将重点确定一个“理想”的树子集:一个用作内生协变量,另一个用作有效且强大的工具,可以减轻估计偏差。

14
何人来此 在职认证  发表于 2022-4-26 14:42:05
我们将此任务分解为三个不同的步骤,如下所示:o步骤1移除无效仪器:给定i∈ {1,…,M},使用bx(i)作为内生协变量,然后选择其他树的子集Vi {bX(1),…,bX(M)}\\bX(i),省略了bX(i)的无效工具。该步骤使用Dtest进行第2步选择强仪器:给定i∈ {1,…,M},使用bx(i)作为内生协变量,然后选择其他树的子集Si Vi,它由强大的bx(i)工具组成。此步骤通过Dtest进行∪ 邓纳贝尔。步骤1-2是迭代的(稍后详细讨论)第3步估计:基于选定的协变量SIFx(i)工具,获得2SLS回归估计。我们进行额外检查,以评估2SLS回归估计的有效性,并保留满足特定检查的2SLS估计值,以产生最终修正系数估计值。此步骤使用标签进行∪ 邓纳贝尔。第3步中的额外“有效性检查”是必要的,因为尽管第1-2步旨在移除有效仪器并选择强仪器,但理论上无法保证所有选定仪器始终在有限样本中有效且强。因此,第三步中的有效性检查试图确定哪些子树的渐近性质似乎存在,从而降低了当随机林中所有单株树的预测都不是合适的工具时,我们的方法产生错误结果的可能性。

15
kedemingshi 在职认证  发表于 2022-4-26 14:42:19
此外,由于样本有限,不太可能完全满足仪器有效性,尤其是排除限制。因此,我们的程序与在有限样本中使用“合理外生”工具进行估计的做法一致(Conley等人,2012)。2.4.1步骤1:移除无效工具为了排除给定内生协变量的无效工具,我们依赖于标记数据中的信息。重申随机森林模型是基于Dtrain建立的,然后在Dtest上评估其性能。因此,在forDtest中,我们观察到了地面真实值、模型预测值,以及预测误差(真实值和预测之间的差异)。利用数据测试中的这些信息,我们可以评估使用个别树木的预测作为工具的有效性,并根据经验排除与测量误差密切相关的无效工具。基于之前关于仪器选择的工作(如Belloni等人,2012年),我们采用了基于套索的启发式程序来识别和丢弃违反排除要求的仪器。在不丧失普遍性的情况下,假设来自Dtest上第一棵个体树的预测bX(1)作为内生协变量,相应的预测误差表示为e(1)。我们估计e(1)的套索回归是基于其他单个treeson Dtest的预测,即e(1)~ {bX(2),…,bX(M)}。然后放弃套索产生非零系数的回归器集,因为它们的线性组合被确定为e(1)的强预测因子,这意味着这些回归器违反了关于tobX(1)的排除限制。

16
能者818 在职认证  发表于 2022-4-26 14:42:25
相反,系数为零的回归方程组被保留,用V表示,因为套索无法提供证据表明它们违反了排除限制。2.4.2步骤2:强工具的选择为了从剩余的候选工具集中选择一组足够强的工具,对于给定的内生协变量,我们采用了贝洛尼等人(2012)提出的另一种启发式方法。将BX(1)视为内源性协变量,Vas视为步骤1中获得的一组仪器。我们估计一个套索回归,其中内生协变量在所有可用工具上回归(类似于2SLS估计的第一阶段),即bX(1)~ V.套索试图将与内生协变量有条件不相关的工具(即,在存在其他工具时较弱)的系数缩小为零,非零系数表示一组预测Bx(1)的回归系数,直观上对应于强工具。因为这一步只需要从单个树中进行预测,所以它是在Dtest上进行的∪ 邓纳贝尔。重要的是,如果仪器集在两步选择过程中发生变化(即,某些仪器被确定违反排除或相关性要求,因此被删除),我们将对其余仪器重复两个套索选择步骤(1和2),直到选择停止变化。这种迭代方法增加了我们选择的仪器同时有效和强大的可能性。此外,我们预计该程序应能很好地处理有效数据,因为当Vicontants仅包含排除的工具时(根据定理1,符合假设),Belloni等人(2012)表明,渐近Si将是线性最优的工具集。

17
可人4 在职认证  发表于 2022-4-26 14:42:32
我们提供了附录C第1步和第2步中概述的工具变量选择程序的更多细节。概述中,对于每个HBx(I),I∈ {1,…,M},我们可以用这个过程来选择一组强的,排除的仪器,Si。2.4.3步骤3:估计考虑相关的经济计量模型,Y=XβX+ZβZ+ε。如果计量经济模型中的所有变量,即{Y,X,Z}在Dlabel中都是可直接观测的,那么通过在无误差Dlabel上估计计量经济模型,可以得到{βX,βZ}的无偏估计,即asbβlabel。在实践中,由于获取标签的成本,Dlabelis的大小通常是有限的。因此,bβlabelmay显示出很大的标准误差,并不特别适合绘制因果推断。尽管如此,这些估计是无偏的,可以用作确定仪器估计质量的有用基线。在这一小节中,我们讨论了最终选择程序,基于2SLS估计和使用精确测量的Dlabel协变量(即bβ标签)的无偏估计的比较。我们注意到,如果Dlabelis足够大,这意味着研究人员可以有效地获取一大组具有足够统计能力的标记数据来估计感兴趣的经济计量模型,那么首先就没有必要使用机器学习模型来构建/挖掘变量;研究人员应该简单地估计Dlabel上的经济计量模型。具体而言,按照步骤1-2,我们使用bX(i)作为内生协变量,并使用SIA作为其工具,表示为asbβiIV,获得每对(bX(i),Si)的一组2SLS估计。分别表示BβiIVandbβLabelAb∑iIVandb∑label的方差协方差矩阵。为了将BβIIV与Bβ标签进行比较,我们使用了具有不等变异性的霍特林Ttest(Seber,2009)。

18
能者818 在职认证  发表于 2022-4-26 14:42:39
该检验是T检验的多元推广,旨在评估两个随机变量向量之间均值相等的零假设,其联合分布具有不等的方差。测试统计为:Hi=(bβiIV-bβ标签)Tb∑iIV+b∑标签-1(bβiIV)-bβ标记)。HI以χ(K)的形式自动分布,其中K代表协变量的总数(Seber,2009)。因此,如果HI在用户选择的显著性水平上大于χ(K)的临界值(我们选择α=0.05用于说明),那么BβiIVis与无偏Bβ标签显著不同,表明一个或多个仪器可能违反相关性和/或排除要求。然后,SuchbβiIVis被丢弃。同时,假设一(bX(i),Si)对的相关霍特林统计值低于临界值,这样每一对根据经验得出的估计值与Bβ标签没有显著差异。然后,我们使用经验MSE测量每组估计值的经验b ias和方差,如下所示:MSEi=tr(b)βiIV-bβ标签(bβiIV)-bβ标记)T+b∑iIV. 最后,我们选择经验均方误差最小的估计,即经验偏差和方差之和最小的估计。我们注意到,在没有控制的情况下测试这些多个假设,可能会影响我们的I型错误:错误拒绝真正有效元组的概率。考虑到我们可能有多个元组可供选择,我们的偏好是保守(而不是拒绝元组),我们更喜欢不进行推理,而不是进行错误的推理。请注意,与ForestIV估计值相关的2SLS方差(即B∑iIV的对角线元素)并不反映估计值的真实可变性,因为我们有意选择方差较低的估计值。

19
可人4 在职认证  发表于 2022-4-26 14:42:45
为了正确地量化ForestIV估计量的可变性,我们建议使用bootstrap{Dlabel,Dunlabel},将ForestIV过程应用于每个bootstrap样本,并获得ForestIV估计量的经验样本分布。抽样分布的方差可作为ForestIV方差的直接估计。ForestIV的伪代码见附录D。以拟议的ForestIV程序为基准,我们还考虑了三种可能的替代设计选择,即与仪器发现、选择和评估相关的设计选择。首先,ForestIV的一个关键特征是,我们“分解”了arandom森林,并利用单个树木来发现用于偏差校正的仪器。作为替代方案,我们可以考虑一种样本分割方法,其中DTRAIN被分割成两个独立的子集,并在每个子集上构建一个随机森林。然后,一个森林的预测可以作为另一个森林预测的工具。这种方法在直觉上很有吸引力,因为森林的预测性能可以说比单株树更好,从而从一开始就减少了测量误差问题。同样,ForestIV中仪器选择程序的第二个替代设计是使用来自树子集的聚合预测(而不是来自单个树的预测)作为内生协变量和工具变量。第三,在ForestIV的估计步骤中,虽然我们建议选择最小化经验MSE的估计,但另一种设计是对所有未被霍特林Ttest拒绝的估计进行平均。

20
kedemingshi 在职认证  发表于 2022-4-26 14:42:51
总的来说,这些替代设计选择的相对性在先验上并不明确,因此我们将对它们进行经验探索,作为下一节讨论的模拟实验的一部分。3.模拟实验3。1基本模拟设置我们的第一次演示利用了自行车共享数据(Fan aee-T和Gama,2014),其中包含17379个小时自行车租赁活动实例。IT是一个常用的数据集,用于基准测试和评估机器学习模型(例如Giot和Cherrier,2014)。此外,该数据集有助于模拟机器学习如何对流动性对重要经济或社会结果的影响问题进行实证研究的例子。我们对数据集进行随机划分,1000个观测值作为Dtrain,200个观测值作为Dtest,剩下的16179个观测值作为Dunlabel。这代表了一个现实的场景,Dunlabelis比Dlabel大得多。使用Dtrain,我们建立了一个由100棵树组成的随机森林模型,根据12个特征(包括租赁时间、天气和季节信息)预测每小时自行车租赁总量的对数转换计数(表示为lnCnt,对数转换以减少偏斜度)。重要的是,随机森林生成聚合(集合)预测,以及来自其每棵树的预测。我们将\\lnCnt表示为聚合预测,并\\lnCntias表示来自单个树i的预测∈ {1, . . . , 100}.接下来,我们用lnCnt作为独立的协变量来模拟一个计量经济学模型。模型规格为y=1+0.5lnCnt+2Z+Z+ε,其中Z~ 制服[-10,10],Z~ N(01100)和ε~ N(0,4)。在BikeSharing数据集中,σlnCnt=1.5,小于回归误差项的标准偏差。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-3 23:55