楼主: 何人来此
2513 50

[经济学] 样本选择模型的双机器学习 [推广有奖]

11
mingdashike22 在职认证  发表于 2022-4-24 17:57:22
仅观察特征。对于模型(1),这意味着U和V在给定D、X的情况下是条件独立的。假设3(共同支持):参见例如Imai(2009)中的替代假设,这意味着选择与结果相关,但独立于以结果和其他可观察变量为条件的治疗。注意Y(d)=φ(d,X,U),这意味着对治疗进行筛选会产生潜在的结果。(a) Pr(D=D | X=X)>0和(b)Pr(S=1 | D=D,X=X)>0∈ 假设3(a)是一个常见的支持限制,要求在给定的x下,接受特定治疗的条件概率(以下简称治疗倾向评分)大于零。假设3(b)要求,对于D,X的任何组合,观察到的条件概率(以下称为选择倾向分数)大于零。否则,这些变量的某些特定组合并未观察到结果,这意味着另一个常见的支持问题。图1提供了使用有向无环图的识别设置的图形说明,箭头表示因果影响。

12
mingdashike22 在职认证  发表于 2022-4-24 17:57:29
D、S和Y中的每一个都可能受到图1中未显示的不同且统计上独立的不可观测数据集的因果影响,但这些不可观测数据都可能在给定X或给定D和X的情况下共同影响D和Y。图1:随机缺失假设下的因果路径我们的识别假设暗示E[Y(D)|X]=E[Y | D=D,X]=E[Y | D=D,S=1,X],(2)假设1得出第一个等式,假设2得出第二个等式。因此,在(3)或(3)或(3)或(3)或(3)或(3)或(3)或(3)或(3)或(3)或(3)或,利用E[Y[Y[Y | d=d,S=d,S=d,S=d,S=1,S=1,S=1,S=1,X,X,X=E[I(d=d=d=d=d=d=d=d=d=d=d.d.d=d.d.d.d.d.d.d.d)d 0.d.d 00 0 0.d 00 0 0(d=d=d=d=d=d=d=d=d,S=d,S=d,S=d,S=1,S=1,S=1,S=1,S=1,X,X=1,X,X,X,X=1,X,X)X=X d=d,X)#,(4)其中第二个等式来自迭代期望定律。I{·}表示指示函数,如果其参数满足,则等于1,否则等于0。在(4)中除以Pr(D=D | X)·Pr(S=1 | D=D,X)也证明了假设3对于非参数识别的重要性。为了简洁起见,我们用u(D,S,X)=E[Y | D,S,X]表示条件平均结果,用pd(X)=Pr(D=D | X)和π(D,X)=Pr(S=1 | D,X)表示倾向得分。表达式(3)和(4)表明,根据条件平均结果或使用治疗和选择倾向得分的逆概率加权,可以确定平均潜在结果(以及ATE)。根据关于双稳健方法的文献,例如Robins,Mark和Newey(1992),Robins,Rotnitzky和Zhao(1994),以及Robins,Rotnitzky和Zhao(1995),我们结合两种方法得到以下识别结果:e[Y(d)]=Ehψdi,其中ψd=I{d=d}·S·[Y]- u(d,1,X)]pd(X)·π(d,X)+u(d,1,X)。

13
大多数88 在职认证  发表于 2022-4-24 17:57:35
(5) (5)中的结果基于所谓的有效分数函数,该函数根据Levy(2019)中概述的方法在附录B中正式推导而来。注意到e“I{D=D}·S·[Y- u(d,1,X)]pd(X)·π(d,X)#=E“E[I{d=d}·S·[Y-u(d,1,X)]|X]pd(X)·π(d,X)#=E[E[Y- u(d,1,X)| d=d,S=1,X]=E[E[Y | d=d,S=1,X]- u(d,1,X)]=E[u(d,1,X)- u(d,1,X)]=0,(6)很容易看出(5)相当于(3),因此(4)。然而,与(3)和(4)相比,如果条件平均结果u(d,1,X)或倾向分数pd(X)和π(d,X)被正确指定,表达式(5)在这个意义上是双重稳健的,即它确定了E[Y(d)]。此外,它满足了所谓的内曼(1959)正交性,即对u(d,S,X),pd(X)和π(d,X)中的扰动是一阶不敏感的,见附录A.1。当使用机器学习以数据驱动的方式估计结果、治疗和选择模型时,这需要期望的鲁棒性。3不可忽略无反应下的识别当样本选择或结果损耗与不可观察相关时,即使是有条件的不可观察,识别通常需要S的工具。因此,我们替换假设2和3,但保留假设1(即选择治疗是基于可观察)。假设4(选择工具):(a)存在一个工具Z,它可能是D的函数,即Z=Z(D),与S有条件相关,即e[Z·S | D,X]6=0,并且满足(i)Y(D,Z)=Y(D)和(ii)Y⊥Z | D=D,X=X表示所有D∈ {0,1,…,Q}和x在x的支持下,(b)S=I{V≤ χ(D,X,Z)},其中χ是一般函数,V是不可观测的标量(指数),具有严格单调的累积分布函数,条件是X,(c)V⊥(D,Z)|X.假设4不再强加给定D,X的Y和S的条件独立性。

14
kedemingshi 在职认证  发表于 2022-4-24 17:57:41
由于选择方程中的不可观察V可以与影响结果的不可观察V相关联,假设1和假设2通常不以S=1为条件,因为治疗后变量S的内生性。事实上,S=1意味着χ(D,X,Z)>V以X为条件,V的分布通常在D的各个值上有所不同。如果潜在结果分布在V的各个值上有所不同,这就违反了给定S=1和X的D和Y(D)的条件独立性。因此,我们需要一个由Z表示的工具变量,该变量不得影响Y,也不得与影响Y的不可观察变量相关联,条件是D和X,如4(a)中所述。我们采用了基于该仪器的控制函数方法,这需要进一步的假设。作为选择中的另一组IV限制条件,d\'Haultfouille(2010)允许工具与结果相关联,但假设工具和选择条件独立于结果。控制函数方法已应用于半参数和非参数样本选择模型,例如Ahnand Powell(1993)、Das、Newey和Vella(2003)、Newey(2007)、Huber(2012)和Huber(2014b),以及4(b)中假设的阈值交叉模型,Pr(S=1 | D,X,Z)=Pr≤ χ(D,X,Z))=FV(χ(D,X,Z)),其中FV(v)表示v评估atv的累积分布函数。为了方便起见,我们将使用符号∏=π(D,X,Z)=Pr(S=1 | D,X,Z)。同样通过假设4(b),选择概率∏在χ中严格单调增加,因此分布函数Fv和给定X的特定值v之间存在一对一的对应关系。通过假设4(c),v独立于给定X的(D,Z),这意味着给定X的v的分布函数是(非参数)确定的。

15
能者818 在职认证  发表于 2022-4-24 17:57:47
通过比较具有相同∏的个体,我们控制了Fv,从而控制了V与D和Y(D)的混杂关联,这些关联发生在S=1,X的条件下。换句话说,当外源性变化来自Z时,则∏作为控制函数。因此,基于仪器控制Vb的分布是直接控制V水平(不可行)方法的可行替代方法。图2提供了一个因果模型的非循环图,可以满足假设1和4。U表示影响结果的不可观察事物,可能与V(不可观察的影响选择)任意关联。请注意,虚线表示数据中未观察到V、U。识别依赖于工具Z,工具Z不得与D和X条件下的结果相关联。图2:非参数工具变量模型中不可忽略的无响应下的因果路径,参见Newey、Powell和Vella(1999)、Blundell和Powell(2004)以及Imbens和Newey(2009)。此外,识别需要以下共同支持假设,这与假设3(a)类似,但与后者相反,还包括∏作为条件变量。假设5(公共支持):对于所有D,Pr(D=D | X=X,π=π)>0∈ 支持x,z的{0,1,…,Q}和x,z。这意味着在完全非参数的情况下,工具z通常必须是连续的,并且足够强,以便在所选总体中重要地转移选择概率∏条件为D,M,x。

16
mingdashike22 在职认证  发表于 2022-4-24 17:57:54
假设1、4和5足以确定所选人群中的平均潜在结果和ATE,表示为S=1=E[Y(1)- Y(0)| S=1]。要看到这一点,请注意,识别假设意味着[Y(d)|S=1,X,FV]=E[Y(d)|S=1,X,π]=E[Y | d=d,S=1,X,π](7)在假设4下,第一个等式来自∏=FV,第二个等式来自这样一个事实:当控制FV时,S=1的条件不会导致Y(d)和Dgiven X之间的关联,使得Y(d)⊥通过假设1和4,D | X,π,S=1成立。因此[Y(d)| S=1]=E[E[Y | d=d,S=1,X,π]|S=1]。(8) 用pd(X,π)=Pr(D=D | X,π)和u(D,S,X,π)=E[Y | D,S,X,π(D,X,Z)]表示,通过[Y(D)| S=1]=EhφD,S=1 | S=1i,其中φD,S=1=I{D=D}[Y]得到所选患者的平均潜在结果的替代表达式- u(d,1,X,π)]pd(X,π)+u(d,1,X,π),(9),其中除以pd(X,π)使得对假设5的依赖变得明确。通过运用不可知期望定律来取代-带E[Y]的u(d,1,X,π)]-u(d,1,X,π)|d=d,S=1,X,π]注意到后一个表达式为零,可以看出(9)相当于(8)。但与后者不同的是,识别结果(9)满足内曼正交性,并基于有效影响函数,见附录B。虽然与(9)相关的有效影响函数在技术上是双重稳健的,即如果u(d,1,X,π)或pd(X,π)被正确指定,则一致,值得注意的是,该属性通常只能保存ATE在总人口(而非选定人口)中的标识,如果没有进一步的假设,则不可行。原因是,如果D的影响与影响结果的不可观察因素相互作用,即。

17
kedemingshi 在职认证  发表于 2022-4-24 17:58:00
(1)中的U,因为后者通常在s=1上分布不同,0甚至以(X,π)或(D,X,π)为条件。要了解这一点,请注意,条件为∏=Pr(V≤ χ(D,X,Z)),V差异在所选(满足V≤ χ(D,X,Z))和未选择的(满足V>χ(D,X,Z)),因此,如果V和U相关联,U的分布也不同。这通常意味着E[Y(1)- Y(0)| S=1,X,∏6=E[Y(1)-Y(0)| S=0,X,π]。虽然控制函数∏确保(与X一起)治疗在所选亚群中是未经证实的,但它不允许对未经选择的人群进行外推,且未观察到结果,有关进一步的讨论,请参见Huber和Melly(2015)。因此,假设6在X,V的条件下,对选定和非选定人群的平均治疗效果施加了同质性。影响同质性的一个有效条件是结果方程中观察到的和未观察到的成分的可分性,即Y=η(D,X)+ν(U),其中η,ν是一般函数。此外,假设5中假设的共同支持需要加强,以在整个人群中保持。此外,选择概率∏对于其支持的任何d、x、z都必须大于零。否则,D,X的某些值不会出现结果。假设7将这种常见的支持限制形式化。假设6(条件效应同质性):e[Y(d)-Y(d)| S=1,X=X,V=V]=E[Y(d)-Y(d)|X=X,V=V]对于所有d6=d∈ {0,1,…,Q}和支持x,v的x,v。假设7(公共支持):所有d的π(d,x,z)>0∈ {0,1,…,Q}和x,z在x,z的支持下。如果∏是正确指定的,因为它同时输入u(d,1,x,π)和pd(x,π)作为第一步估计量。

18
可人4 在职认证  发表于 2022-4-24 17:58:06
然而,我们的方法不依赖于(全局)双重鲁棒性,而是依赖于内曼正交性,这意味着DML必须在特定的正则条件下对∏的局部扰动负责。在假设1,4,5,6和7下,可以得出u(d,1,X,π)- u(d,1,X,π)=E[Y(d)- Y(d)| S=1,X,V]=E[Y(d)- Y(d)|X,V],(10)其中第一个等式来自假设1和4,见(7),第二个等式来自假设6。因此,ATE由 = E[u(d,1,X,π)- u(d,1,X,π)]。(11) 基于有效影响函数和Spects-Neyman正交性的ATE替代表达式如下所示: = Ehφd- φdi,其中φd=I{d=d}·S·[Y- u(d,1,X,π)]pd(X,π)·π(d,X,Z)+u(d,1,X,π),(12),其中除以pd(X,π)·π(d,X,Z)取决于在许多应用中,在顺序条件独立下满足假设5和7.4的识别,通过仅对治疗分配前测量的基线协变量进行调节来控制所有影响样本选择指标的变量似乎不现实,尤其是在手头没有仪器的情况下。当治疗分配和样本选择/消耗之间存在很大的时间差时,这种情况尤其明显,这引起了对动态混杂的担忧。后者意味着影响结果和样本选择的一些混杂因素本身就是治疗的函数。随后,我们重新考虑MAR框架,但不修改识别假设,以便允许观察到治疗后Y和S的混杂因素。随后,我们将通过M引用观察到的治疗后变量,以便将其与治疗前协变量X区分开来。

19
nandehutu2022 在职认证  发表于 2022-4-24 17:58:12
识别基于顺序条件独立性,其基于维持假设1(给定X的D的条件独立性),但将假设2替换为选择指标S的修改条件独立性假设,允许因M=M(D)而产生动态混杂,即治疗可能影响的协变量。假设8(选择的条件独立性):Y⊥S | D=D,X=X,M=M表示所有D∈ 支持x和m的{0,1,…,Q}和x,m。根据假设8,不存在共同影响选择和结果的不可观察因素,其条件是D、X、M,因此样本选择仅为选择性的w.r.t.观察特征。当将(1)中的非参数结果和选择模型修改为Y=φ(D,X,M,U)和S=ψ(D,X,M,V)时,如果不可观测的U和V是独立的,则满足假设8。假设9(共同支持):(a)Pr(D=D | X=X)>0和(b)Pr(S=1 | D=D,X=X,M=M)>0∈ 假设9中的(b)部分比假设3中的(b)部分施加了更强的公共支持限制,因为它要求D,x,m(而不是仅D,x)的任何组合的选择倾向得分大于零。图3提供了一个非循环图,其中假设1和8成立。治疗后协变量M可能受到D、X的影响,并可能共同影响S和Y。然而,在条件onD,X,M中,不存在共同影响S和Y的不可观测项。图3:顺序条件独立下的因果路径我们的识别假设意味着E[Y(d)]=E[E[Y(d)|X]=E[E[Y | d=d,X]=E[E[E[Y | d=d,X,M]| d=d,X]=E[E[Y | d=d,S=1,X,M]| d=d,X]]。(13) 其中第一个和第三个等式来自迭代期望定律,第二个等式来自假设1,第四个等式来自假设8。

20
mingdashike22 在职认证  发表于 2022-4-24 17:58:18
除了这种基于回归的嵌套条件平均结果的结果外,还可以获得基于IPW的表达式,其中我们使用π(D,X,M)=Pr(S=1 | D,X,M)作为选择倾向评分的快捷符号。E[E[Y | D=D,S=1,X,M | D=D,X]=E“E”E“S·Yπ(D,X,M)D=D,X,M#D=D,X##=E“E”S·Yπ(D,X,M)D=D,X##=E“E”I{D=D}·S·Ypd0(X)·π(D,X,M)其中,第一个和第三个等式来自基本概率理论,第二个和最后一个等式来自迭代期望定律。将回归和IPW结合起来,基于有效影响函数产生以下双重稳健识别结果,其中u(D,1,X,M)=E[Y | D=D,S=1,X,M]和ν(D,1,X,M)=[Y | D=D,S=1,X,M]| D=D,X]分别表示条件平均结果和嵌套条件平均结果:E[Y(D)]=Ehθdi,其中θD=I{D=D}·S·[Y]- u(d,1,X,M)]pd(X)·π(d,X,M)+I{d=d}·[u(d,1,X,M)- 其中除以pd(X)·π(d,X,M)依赖于假设9。效率影响函数的推导见附录B.5利用K-折叠交叉拟合估计反事实我们随后根据识别结果(5)提出了MAR下反事实e[Y(d)]的估计策略,并在特定规则性条件下显示其根n一致性,如第2节所述。为此,让我们来看一下W={Wi | 1≤ 我≤ n} Wi=(Yi·Si,Di,Si,Xi)表示i.i.d.样本大小为n的一组观察值。η表示插件(或干扰)参数,即条件平均结果、中介密度和治疗概率。它们各自的估计值由η={u(D,1,X),^pd(X),^π(D,X)}表示,真实参数由η={u(D,1,X),pd0(X),π(D,X)}表示。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-29 08:30