楼主: 大多数88
2992 79

[经济学] 利用数据挖掘变量实现可靠的因果推断:一个随机模型 [推广有奖]

31
kedemingshi 在职认证  发表于 2022-4-26 14:44:03
然而,使用仪器变量方法的研究人员通常面临两个重大挑战。首先,有效的仪器不容易找到。通常,如果不了解基础数据生成过程,即p层内生性的本质,就无法识别仪器。其次,为了证明所提议的工具的有效性,研究人员需要提供令人信服的证据,证明该工具满足两个标准,即相关性和排除性。虽然前一个标准可以通过经验性检查内源性卵巢酸盐和仪器之间的关联强度来评估,但后者往往是不稳定的,因此取决于提供令人信服的定性、概念性论证的研究,即仪器与最终感兴趣的结果没有关联,除了其对内生变量的影响。我们的算法提供了一个新的机会,通过粗略的定量方法来满足这两个需求,因为它利用了一组完美测量的数据的可用性,即预测模型的标记数据,减少了对定性参数(或限制性假设)的需要。A.2集成学习和随机森林在机器学习文献中,集成学习代表了预测模型的一个重要范例。集成学习的目的不是建立一个模型来解决预测问题,而是建立多个个体模型,即模型的集成,并将它们各自的预测结合起来,得出一个更精确的模型。例如,请参见https://thepoliticalmethodologist.com/2015/07/13/why-cant-we-just-make-up-instrumental-变量/用于讨论纯粹随机生成的仪器通常无效的原因。准确和稳定的骨料预测(Aggarwal,2015)。

32
可人4 在职认证  发表于 2022-4-26 14:44:10
一些典型的集成学习方法包括bagging(Breiman,1996)、bo osting(Freund等人,1996)和random forest(Breiman,2001;Denisko和Ho Off-man,2018),后者与我们的论文特别相关。随机森林是决策树的集合。每个树都是建立在训练数据的随机样本上的,并且树中的每个分割(节点)都会考虑一个随机的特征子集(Breiman,2001)。森林对观测结果的预测来自于对单个树木的预测的聚合,例如,对分类任务的多数投票或对数值预测任务的平均。由于随机森林通常具有很高的预测精度,已被证明在各种研究领域非常有用(Verikas等人,2011年;Denisko和Ho Off-man,2018年)。随机森林的预测性能与每棵树的准确性正相关,与预测误差中的树间相关性负相关(Breiman,2001;Bernard等人,2010)。直观地说,随机森林的性能随着组成森林的树木的个体预测精度的联合函数而增加,构成森林的树木在预测误差上“不同”。根据观察,这些目标与支撑有效工具变量的相关和排除限制非常相似,因此这些树可以作为解决预测(测量)误差引起的偏侧回归中内生性的候选工具,这一想法具有一定的表面有效性。A.3生成回归系数我们在这里研究的测量误差问题与大量关于“生成回归系数”的计量经济学文献密切相关,在这些文献中,计量经济学估计中的某些协变量不是直接观测的;相反,它们是首次估计的。

33
大多数88 在职认证  发表于 2022-4-26 14:44:17
事实上,带有工具变量的两阶段最小二乘(2SLS)估计就是这样一种生成的回归模型,其中第二阶段回归中使用的内生协变量的预测值是从第一阶段回归中生成的。研究人员在生成函数或最终估计为参数(如Newey,1984;Murphy and Topel,1985)、半参数(如Blundell and Powell,2004;Mammen et al.,2016)或非参数(如Sperlich,2009;Mammen et al.,2012)的情况下,研究了计量经济学模型的理论性质。对于这一广泛文献的深入评论,werefer the reader toPagan(1984年)和Oxley and McAleer(1993年)。在这项工作中,研究人员注意到,生成函数可能会产生有偏差的回归估计,这反过来会在第二阶段回归中产生偏差和不一致性,并讨论(通常是理论上的)解决问题的方法。我们的背景和我们正在寻求解决的问题与由此产生的倒退问题有着明显的相似性。然而,我们在这里讨论的测量误差问题仍然有一些独特的特点,使其有所不同。具体地说,在我们的设置中,测量误差源于机器学习模型的预测,该模型是使用一组标签数据建立的,在这些数据上(假设)可以完美地观察到感兴趣的协变量。换句话说,要产生的协变量只是部分未被观察到。这与文献中生成回归模型的典型设置不同。通过标记的数据集进行的部分观察可以客观量化测量误差,并可能进行更有效的偏差校正。

34
nandehutu2022 在职认证  发表于 2022-4-26 14:44:23
正如后面将讨论的,我们提出的方法利用这个标记的数据集来实现偏差校正。如上所述,生成回归器文献中的一些近期工作提出了在存在关于该偏差的分布信息的情况下纠正生成回归器偏差的方法(例如,Meng等人,2016)。因此,作为我们基准分析的一部分,我们试图比较我们的方法与该方法的相对性能(Meng等人,2016)。B理论设置在本附录中,我们提供了测量误差问题的正式设置以及解决该问题的仪器变量方法。我们首先提供计量经济学估计问题的标准设置。我们假设在某一特定人群中,感兴趣的关系由y=XβX+ZβZ+ε表示,(3)其中ε是随机误差项。我们观察到{(yi,xi,zi)i=1,…,n},一个从感兴趣的人群中独立且相同分布的样本,例如yi=xiβX+ziβZ+εifor i=1,nY=XβX+ZβZ+εZ∈ Rn×kand Y,ε,X∈ Rn×1(4)此外,我们将让β=[βX,βZ],A=[X,Z],为了简单起见,除了以下标准线性回归假设外,还假设A表示的k+1预测变量具有零均值:(A1)E[ε| A]=0,(A2)秩(E[A′A])=k+1。利用(A1)和(A2),我们得到了普通最小二乘(OLS)估计量βOLS=(A′A)-1A′Y是无偏的,与β一致。在我们的上下文中,可以使用标记的数据(即n≡ |德拉贝尔|)。此外,我们能够从感兴趣的人群中观察到另一个样本{(yi,bxi,zi)i=n+1,…,n+n},其中bxi(即向量cx)是xi(即向量X)的不完全度量。

35
mingdashike22 在职认证  发表于 2022-4-26 14:44:29
在我们的上下文中,X代表数据挖掘变量的真实值,cx代表机器学习模型生成的不完美预测。对于NSA样本,我们获得X的真值(即地面真值标签),但获得剩余NSA样本的实验室els(即n)是有可能的(例如,在成本或时间上)≡ |Dunlabel |)。通常,n>>n.鉴于其规模较大,人们显然希望利用NSAMPLE中包含的信息进行推理。我们对不完全测量做了以下附加假设,cX:(A3)cX=X+e,(A4)e[ε′e]=0,(A5)e[X′e]=0,和e[Z′e]=0试图简单地用cX代替X来估计(4)已知会导致对^βOLSbecausecX的有偏且不一致的估计是内生的:yi=bxiβX+ziβZ+[εi]- eiβX]对于i=n+1,n+n,Y=cXβX+ZβZ+[ε- eβX]Z∈ Rn×kand Y,ε,e,cX∈ Rn×1,(5)其中内生性来源于cX′e= V ar(e)。请注意,在上面和下面的回归方程中,[·]表示(未观察到的)误差项。工具变量回归是解决内生性问题的常用方法。首先假设我们实际观察到(yi,bxi,zi,wi)i=n+1,。。。,n+n,其中Wii是(假定的)工具变量的d维行向量≥ 1.在两阶段最小二乘(2SLS)回归中对NSA样本进行估计,其形式为:cX=W∧W+Z∧Z+u W∈ Rn×d,Y=fXβX+ZβZ+rz}{[ε+βX(eu- e) ,(6)其中fx=HWcX表示Cx在B的列空间上的投影,其中B=[W,Z]和∧B=[λW,λZ],HW=B(B′B)-1B′;其中eu=cX-外汇。

36
何人来此 在职认证  发表于 2022-4-26 14:44:35
表示C=hfX,Zi,然后2SLS估计量^β2SLS=(C′C)-1C′Y,等于t o^β2SLS=β+中国-1.科恩P-→β+plimn→∞中国-1普林→∞科恩=因此,β2是β(即β=β)和其他标准仪器变量假设的一致估计量:(A6)e[B′ε]=0,(A7)e[B′e]=0,(A8)秩(e[B′B])=d+k,(A9)秩(e[B′a])=k+1。以下定理正式确定了,给定一个内生变量,m是测量的协变量(在这种情况下,是随机林中一棵树的预测向量),以及一组其他错误测量的协变量(在这种情况下,是从包含相同随机林的其他树获得的预测向量),而误差向量之间没有相关性(实际- 预测)与内生协变量和一组其他错误测量的协变量相关,可以获得相关系数的一致估计。定理。让矩阵P=[P,…,pM]=X+[e,…,eM],其中J∈ {1,…,M}pj∈ Rn×1是(5)中定义的规格下变量X的柱向量测量(误差如(A3)-(A5)所定义),并带有相应的假设(A1)-(A2)。另外,设E=P- X=[e,…,eM]是测量器的矩阵,Sj {1,…,M}\\j是基数d的子集,使得PSj,ESj∈ P和E的列向量的Rn×dare子集分别由Sj中的列索引定义。如果EhE′Sjeji=0,则使用PSjas仪器对Pjin 2SL进行测量,可提供(3)中定义的总体参数β的一致估计。证据从(5)中,我们不知道PJI是内生的,因为它的测量误差由未观测到的误差项捕获。而从(6)和(7)我们知道,给定一个工具变量矩阵W,β2SLSp-→ β当(A6)-(A9)满足时。

37
mingdashike22 在职认证  发表于 2022-4-26 14:44:43
因此,当我们让W=PSj时,很有必要证明(A6)-(A9)是满意的。(A1)、(A3)- (A5)==> EZ′ε= 0,EhP′Sjεi=0==> EB′ε= 0(A6),EhE′Sjeji=0==> EhP′Sjeji=0==> 嗯XSj+ESj,Z′εi=0==> EB′ε= 0(A7),最后(A8)-(A9)直接从(A1)-(A5)开始,认识到Ehp′jplni=V ar[X]j,l∈ {1,…,M}。C工具变量选择程序伪代码算法M 1:工具变量选择过程数据:单株树的预测P={bX(1),…,bX(M)}在DTEst上,Dunlabeland gro und truthX在DTEst上:表示k.kas为L1范数,k.kas为L2范数,λ为套索惩罚水平;SetbX(i)为内生协变量;设定P-我← P\\bX(i)作为候选学科的人才库;设置CurrIV s← P-我如果为True,则执行//步骤1:移除无效仪器,包括e(i)=bX(i)- 数据测试中的X;估计套索回归最小值|Dtest|ke(一)-PbX(j)∈电流sδjbX(j)k+λk K;得到Vi← {bX(j)∈ CurrIV s |δj=0}是一组系数为零的仪器;//步骤2:选择强仪器进行数据测试∪ Dunlabel,估计套索回归MinΓ|数据测试∪ Dunlabel | kbX(i)-PbX(j)∈ViγjbX(j)k+λkΓk;得到Si← {bX(j)∈ Vi |γj6=0}作为一组具有非零系数的仪器;如果Si==CurrIV s,则中断;//剩余票据有效且为STRONG ENDSET CurrIV← Si;//重复selectionendOutput:Si,BX(i)的有效和强大仪器集。D ForestIV Appr-oachData的伪代码2:ForestIV Appr-oachData的伪代码:单株树对数据集的预测P={bX(1),…,bX(M)}和对数据集的Dunlabeland gro und truthX估计Bβlabelas对数据集的无偏系数;foreach i∈ {1, . . .

38
能者818 在职认证  发表于 2022-4-26 14:44:49
,M}doSetbX(i)作为利益计量经济模型中的内生协变量;选择Si P\\bX(i)使用算法1;//第3步:估计Si6= 然后使用Sias工具变量,用方差协方差矩阵B∑iIV估计BβiIVon Dunlabel;计算Hotelling的Tstatistic,Hi,betweenbβIIbβ标签;如果Hi<临界值,则保留βiIV;计算M SEi=tr(b)βiIV-bβ标签(bβiIV)-bβ标记)T+b∑iIV;EndendEndOut:最小M SEi的保留DBβIIV。使用bootstrapping获得方差估计。E具有共享数据的连续内生协变量的模拟结果。1两步选择工具变量的有效性在自行车共享数据中,我们使用Dtest计算两个指标,其中观察到地面真相lnCnt和随机森林的预测。在基于套索的两步选择程序之前,对于给定的单个树,我们将所有其他树的预测视为工具。我们计算(1)与2SLS回归相关的F统计量,作为仪器强度的说明性度量;(2)与仪器上tree i预测误差的anOLS回归相关的调整RASS,作为仪器排除的说明性度量。O观察小F-统计和大R指示有微弱和无效的仪器。选择之后,我们再次计算这两个指标,只使用选定的工具。在下面的图中,我们根据AdjustedDR绘制了基于套索的选择前后的F统计数据。套索前1.0.0.1 0.2 0.3 0.4 0.5500 1500 2500-基于选择调整的R-平方-统计0。套索后0.1 0.2 0.3 0.4 0.5500 1500 2500-基于选择调整的R-平方-统计图3:基于单个模拟运行的F-统计与调整RBA的曲线图。

39
kedemingshi 在职认证  发表于 2022-4-26 14:44:55
左图对应于使用所有候选仪器(即,无选择)的2SLS估计,右图对应于仅使用所选仪器的2SLS估计。我们可以看到,在基于套索的选择之后,F-统计量变得更大(p<0.001),调整后的Rbecome更小(p<0.001)。这提供了描述性证据,表明我们基于套索的程序有助于进一步选择坚固有效的仪器。E.2主要结果在每轮模拟中,我们记录与每个系数相关的估计值和标准误差。在桌子上。2.我们报告了所有模拟过程的平均系数和标准误差(括号内),包括有偏回归和无偏回归(从标记数据中获得)。对于ForestIV,我们将100次模拟运行中的采样分布的平均系数和标准偏差报告为标准误差。我们还计算了与t检验相关的p值(方括号内),将每个估计系数与其基础真值进行比较(即,较大的p值意味着估计值在统计学上更接近真值)。我们可以看到,直接使用随机森林预测的结果,回归模型的结果平均为13。2%高估lnCnt,29.8%低估截距。如p值所示,ForestIV估算值与真实lnCnt值没有显著差异。

40
mingdashike22 在职认证  发表于 2022-4-26 14:45:02
与无偏估计相比,Forestiv实现了更小的标准误差(即更高的估计精度)。真有偏无偏前stIVIntercept 1.0 0.702(0.063)1.018(0.204)0.957(0.134)[0.004][0.511][0.745]lnCnt 0.50.566(0.013)0.498(0.040)0.512(0.027)[0.002][0.530 0.652]Z2。0.2.000(0.003)1.999(0.011)2.000(0.003)[0.459][0.524][0.977]Z1。01.000(0.002)0.999(0.006)1.000(0.002)[0.480][0.486][0.989]平均MSE 0.150 0.017表1:ForestIV自行车共享数据结果。括号中的标准错误。p值将ImageMates与方括号中的真值进行比较。Ave MSE包含100次模拟运行中与每组估计值相关的平均经验MSE。E.3敏感性分析下面我们给出了自行车共享数据的敏感性分析结果。E.3.1未标记数据的大小我们使用8种不同大小的未标记数据重复主要模拟,分别为100、500、1000、5000、7500、10000、12500和16179(即所有剩余实例)。其他参数,如标记数据集的大小和计量经济模型规格,在这些模拟中保持不变。该敏感性分析检查了当2SLS估计暴露于大量未标记数据时,lnCnt的ForestIV估计如何收敛。结果绘制在FigureE中。3.1. ForestIV估计值的95%置信区间构建为估计值抽样分布的2.5%和97.5%之间的范围。我们观察到,无论未标记数据量增加多少,有偏估计都会保持有偏,这是由于测量误差会导致不一致的估计。另一方面,随着更多未标记数据的添加,ForestIV估计的置信区间变得更窄。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-3 15:37