楼主: 何人来此
2513 50

[经济学] 样本选择模型的双机器学习 [推广有奖]

21
mingdashike22 在职认证  发表于 2022-4-24 17:58:24
最后,ψd0=E[Y(d)]表示真实的反事实。我们通过以下算法来估计ψd0,该算法将内蒙正交分数的估计与样本分割或交叉拟合相结合,并且在下文进一步定义的条件下是根n一致的。算法1:根据方程(5)1估计E[Y(d)]。在K个子样本中拆分W。对于每个子样本k,让NK表示其大小,WK表示样本中的观测集,WCK表示k.2中未包含的所有观测的补集。对于每个k,使用WCkto估计插件u(D,S=1,X)、pd(X)、π(D,X)的模型参数,以便在Wk中预测这些插件,其中预测由^uk(D,1,X)、^pkd(X)和^πk(D,X)表示。对于每个k,获得Wk中每个观察值的得分函数估计值(见ψdin(5)),表示为^ψkd,i:^ψkd,i=i{Di=d}·Si·[Yi- ^uk(d,1,Xi)]pkd(Xi)·^πk(d,Xi)+^uk(d,1,Xi)。(16)4. 对所有K个子样本的所有观测值进行平均,以获得总样本中ψd0=E[Y(d)]的估计值,表示为^ψd=1/nPKk=1Pnki=1^ψkd,i。为了获得反事实估计的根n一致性,我们对机器学习估计干扰参数的预测质量做出以下假设。继切尔诺朱科夫、切特维里科夫、德米雷尔、杜弗罗、汉森、纽伊和罗宾斯(2018)之后,我们引入了一些进一步的符号:let(δn)∞n=1和(n)∞n=1具有limN的正常数的烯醇序列→∞δn=0和limN→∞n=0。此外,让c,, C和q是正常数,使得q>2,并且让K≥ 2是一个固定整数。同样,对于任意随机向量R=(R,…,Rl),让kRkq=max1≤J≤lkRlkq,其中kRlkq=(E[|Rl | q])q。为了便于表示,我们假设n/K是一个整数。

22
大多数88 在职认证  发表于 2022-4-24 17:58:30
为了简洁起见,我们省略了概率PrP、期望EP(·)和范数k·kP,qon对概率度量P的依赖关系。假设10(规律性条件和插件参数估计的质量):对于所有概率定律P∈ P、 其中P是所有可能的概率定律的集合,以下条件适用于D的随机向量(Y,D,S,X)∈ {0,1,…,Q}:(a)kY kq≤ CE[Y | D=D,S=1,X]∞≤ C、 (b)公共关系( ≤ pd0(X)≤ 1.- ) = 1、公关( ≤ π(d,X))=1,(c)kY- u(d,1,X)k=Eh(Y)- u(d,1,X))i≥ c(d)给定[n]的一个大小为nk=n/K的随机子集I,干扰参数估值器^η=^η((Wi)I)∈IC)满足以下条件。P-概率不小于1- n:k^η- ηkq≤ C、 k^η- ηk≤ δn,k^pd0(X)- 1/2k∞≤ 1/2 - ,k^π(D,X)- 1/2k∞≤ 1/2 - ,k^u(D,S,X)- u(D,S,X)k×k^pd0(X)- p(X)k≤ δnn-1/2,k^u(D,S,X)- u(D,S,X)k×k^π(D,X)- π(D,X)k≤ δnn-1/2.唯一的非原始条件是条件(d),它限制了干扰参数估计的质量。条件(a)规定出演者的分布没有无界时刻。(b) 定义公共支持条件,使治疗和选择倾向得分分别远离0和1及0。(c) 说明协变量X不能完全预测条件平均结果。为了证明我们估计的平均潜在结果的根n一致性,我们首先验证了分数的线性和内马尔正交性(见附录A.1),证明它满足切尔诺朱科夫、切特韦里科夫、德米雷尔、杜弗罗、汉森、纽伊和罗宾斯(2018)中DML框架的要求。由于ψd(W,η,ψd0)在(η,ψd0)中是光滑的,因此插件估计量收敛于速率n-1/4实现n-1/2-收敛在^ψ的估计中,见定理1。

23
何人来此 在职认证  发表于 2022-4-24 17:58:37
n的比率-1/4是许多常用的机器学习者在特定条件下可以实现的,例如套索、随机森林、助推和神经网络,参见贝洛尼、切尔诺朱科夫和汉森(2014年)、罗和斯平德勒(2016年)、瓦格和阿西(2018年)以及法雷尔、梁和米斯拉(2018年)。定理1在假设1-3和10下,它适用于基于算法1估计ψd0=E[Y(d)]:√N^ψd- ψd0→ N(0,σψd),其中σψd=E[(ψd- ψd0)]。证据见附录A.1。随后我们讨论了基于(12)的ψd0的估计。我们注意到,在这种情况下,需要估计嵌套的干扰参数u(d,1,X,π)和pd(X,π),因为它们需要∏=π(d,X,Z)的第一步估计。为了避免嵌套估计过程中的过度拟合,在不同的子样本中估计∏和u(d,1,X,π)、pd(X,π)的模型。插件估计值现在用η={^u(D,1,X,π)、^pd(X,π)、^π(D,X,Z)}表示,真正的插件用η={u(D,1,X,π)、pd0(X,π)、π(D,X,Z)}表示。算法2:根据方程(12)1估计E[Y(d)]。在K个子样本中拆分W。对于每个子样本k,让NK表示其大小,WK表示样本中的观测集,WCK表示k.2中未包含的所有观测的补集。将WCKIN拆分为2个不重叠的子样本,并在一个子样本中估计π(D,X,Z)的模型参数,以及在另一个子样本中估计u(D,1,X,π)和pd0(X,π)的模型参数。在Wk中预测插件模型,其中预测由^∏k、^pkd(X,^∏k)和^u(D,1,X,^∏)表示。对于每个k,获得Wk中每个观测i的有效得分函数的估计值(参见φdin(12)),表示为^φkd,i:^φkd,i=i{Di=d}·Si·[Yi- k k(d,1,Xi,i i)] Pd(席,αi)·π(d,席,Zi)+α(d,1,席,αi)席(17)4。

24
kedemingshi 在职认证  发表于 2022-4-24 17:58:44
对所有K个子样本的所有观测值进行平均,以获得总样本中ψd0=E[Y(d)]的估计值,用Φd=1/nPKk=1pki=1^φkd表示,即通过算法2中的两个修正获得基于(9)的ψS=1d0=E[Y(d)|S=1]的估计值。首先,不依赖总样本n,只使用sizePni=1的观察结果的子样本,将其分成K个子样本。第二,在步骤3中,用φkd,S=1,i=i{Di=d}·[Yi]替换φkd,iis- αk(d,1,Xi,i i)] Pd(席,αi)+(d,1,席,i)(18),用席夫s= 1d=pNi=1SIPKK=1pNKi=1πkd,s=1,i,aspNi=1sii,渐近n的比例,也可将此方法显示为假设11中所述的特定正则条件下的根- N一致性,这与假设10中的相似,但现在我们调整了我们的假设。假设11(规律性条件和插件参数估计的质量):对于所有概率定律P∈ P、 其中P是所有可能的概率定律的集合,以下条件适用于D的随机向量(Y,D,S,X,Z)∈ {0,1,…,Q}:(a)kY kq≤ CE[Y | D=D,S=1,X,π]∞≤ C、 (b)公共关系( ≤ pd0(X,π)≤ 1.- ) = 1、公关( ≤ π(d,X,Z))=1,(c)kY- u(d,1,X,π)k=Eh(Y)- u(d,1,X,π))i≥ c(d)给定[n]的一个大小为nk=n/K的随机子集I,干扰参数估值器^η=^η((Wi)I)∈IC)满足以下条件。

25
可人4 在职认证  发表于 2022-4-24 17:58:50
P-概率不小于1- n:k^η- ηkq≤ C、 k^η- ηk≤ δn,^pd0(X,^∏)- 1/2∞≤ 1/2 - ,k^π(D,X,Z)- 1/2k∞≤ 1/2 - ,^u(D,S,X,^∏)- u(D,S,X,π)×^pd0(X,^∏)- p(X,π)≤ δnn-1/2,^u(D,S,X,^∏)- u(D,S,X,π)×k^π(D,X,Z)- π(D,X,Z)k≤ δnn-1/2.定理2和3分别假设所选总体和总总体的平均潜在结果的估计的根n相合性和渐近正态性。定理2在假设1、4、6、7和11下,它适用于基于算法2估计ψd0=E[Y(d)]:√N^Φd- ψd0→ N(0,σφd),其中σφd=E[(φd- ψd0)]。定理3在假设1、4、5和11下,它适用于基于算法2估计ψS=1d0=E[Y(d)|S=1]:√N^ΦS=1d- ψS=1d0→ N(0,σφd,S=1),其中σφd,S=1=E[(φd,S=1- ψS=1d0)]。证据见附录A.2和A.3。其次,我们考虑了基于(15)的d0的估计。与基于(12)的估计类似,我们需要估计一个嵌套的干扰参数,即ν(d,1,X)=E[u(d,1,X,M)|d=d,X]。为了避免嵌套估计过程中的过度拟合,在不同的子样本中估计u(d,1,X,M)和ν(d,1,X)的模型。算法3:根据方程(15)1估计E[Y(d)]。在K个子样本中拆分W。对于每个子样本k,让NK表示其大小,WK表示样本中的观测集,WCK表示k.2中未包含的所有观测的补集。对于每个k,使用WCkto估计pd(X)和π(d,X,M)的模型参数。将WCKIN拆分为2个不重叠的子样本,并估计不同子样本中条件平均值u(d,1,X,M)和嵌套条件平均值ν(d,1,X)的模型参数。预测Wk中的模型,其中预测用^pkd(X)、^πk(d,X,M)、^uk(d,1,X,M)、^νk(d,1,X)表示。

26
nandehutu2022 在职认证  发表于 2022-4-24 17:58:56
对于每个k,获得Wk中每个观测i的矩条件估计值,表示为^θkd,i:^θkd,i=i{Di=d}·Si·[Yi- k k(d,1,席,米河)] pkd(席)·πk(d,席,米河)+i {di= d}·[ k k(d,1,席,米河)- ^νk(d,1,Xi)]pkd(Xi)+^νk(d,1,Xi)。对所有K个子样本的所有观测值进行平均,以获得总样本中ψd0=E[Y(d)]的估计值,用^d=1/nPKk=1pki=1^θkd表示,i.为了显示这种估计方法的根n一致性,我们施加以下正则条件,其中我们再次假设n/K是一个整数,并忽略概率PrP、期望EP(·)的依赖性,范数k·kP,qon概率测度P:假设12(规律性条件和插件参数估计的质量):对于所有概率定律P∈ P以下条件适用于所有D的随机向量(Y,D,S,X,M)∈ {0,1,…,Q}:(a)kY kq≤ CE[Y | D=D,S=1,X,M]∞≤ C、 (b)公共关系( ≤ pd0(X)≤ 1.- ) = 1、公关( ≤ π(d,X,M)≤ 1.- ) = 1、(c)kY- u(d,1,X,M)k=Eh(Y)- u(d,1,X,M))i≥ c(d)给定[n]的一个大小为nk=n/K的随机子集I,干扰参数估值器^η=^η((Wi)I)∈IC)满足以下条件。

27
mingdashike22 在职认证  发表于 2022-4-24 17:59:02
P-概率不小于1- n:k^η- ηkq≤ C、 k^η- ηk≤ δn,k^pd0(X)- 1/2k∞≤ 1/2 - ,k^π(D,X,M)- 1/2k∞≤ 1/2 - ,k^u(D,S,X,M)k×k^pd0(X)- pd0(X)k≤ δnn-1/2,k^u(D,S,X,M)- u(D,S,X,M)k×k^π(D,X,M)- π(D,X,M)k≤ δnn-1/2,k^ν(D,S,X)- ν(D,S,X)k×k^pd0(X)- pd0(X)k≤ δnn-1/2.在这些正则性条件和连续条件独立假设下,基于算法3的估计是渐近正态的,如定理4所假设的。定理4在假设1、8、9和12下,它适用于基于算法3估计E[Y(d)]:√N^Θd- ψd0→ N(0,σθd),其中σθd=E[(θd- ψd0)]。定理4的证明在附录A.4.6模拟研究中提供。本节提供了一项模拟研究,以调查我们的估算方法的有限样本行为,或者依赖于基于以下数据生成过程选择的工具的MAR假设:Y=D+Xβ+U,如果S=1,S=I{D+γZ+Xβ+V>0},D=I{Xβ+W>0},X,则观察到Y~ N(0,σX),Z~ N(0,1),(U,V)~ N(0,σU,V),W~ N(0,1)。结果Y是D(其治疗效果为1)、协变量X(β6=0)和不可观察U的线性函数,只有当选择指标S等于1时,才能观察到结果Y。选择是D,X,不可观测V的函数,如果γ6=0,则是仪器Z的函数。治疗是X和不可观察W的作用。Z和W都是随机的标准正态分布变量,与X或(U,V)不相关。X中的平均零和正态分布协变量之间的相关性由协方差矩阵σX确定。类似地,σU,v确定结果和选择方程中的平均零和正态分布不可观测值之间的相关性。在此设置中,如果U和V之间的距离不为零,则违反MAR。

28
大多数88 在职认证  发表于 2022-4-24 17:59:09
我们考虑我们的估计在1000模拟中的性能,N=2000和8000的两个样本大小。在我们的模拟中,我们将协变数p设置为100。σXis的定义基于将X中第i个和第j个协变量的方差设置为0.5 | i-j |。β分别衡量协变量对Y、S和D的影响,从而衡量混淆的程度。系数向量β中的第i个元素设置为0.4/ifor i=1。。。,p、 这意味着在混淆方面协变重要性的平方衰减。在我们的第一个模拟设计中,我们设置γ=0和σU,V=1 00 1如第2节所述,MAR有效。我们考虑基于定理1(此后的DML MAR)的DML的性能,它不使用仪器Z,以及基于定理2(DML IV),它利用了仪器,尽管satisfactionof MAR.损坏了参数,即结果和选择方程和处理方程的线性和概率的阳离子,使用van der Laan、Polley和Hubbard(2007)为统计软件R提供的Super Learner软件包的默认选项,通过套索回归进行估计。我们使用3倍交叉拟合来估计治疗效果。我们观察到,其治疗和选择倾向评分的乘积接近于零,即小于0.01(或1%)的微调阈值。这避免了在通过(5)和(12)的样本类似物估计平均潜在结果或ATE时,基于属性分数的权重爆炸,从而避免方差爆炸,其中,属性分数的乘积输入相应的分母,用于重新加权结果。我们的估算程序可在Bodory和Huber(2018)的R因果权重包的treatselDML命令中找到。表1给出了模拟结果。

29
能者818 在职认证  发表于 2022-4-24 17:59:15
DML-MAR和DMLIV的偏差(偏差)与样本量无关,非常接近于零。此外,估计量的方差几乎相同,尽管DML IV不必要地依赖于控制表1:MARtrue bias sd RMSE meanSE Coverage Gen=2000DML MAR 1.000 0.003 0.060.063 0.939DML IV 1.000 0.003 0.060 0.060 0.063 0.939n=8000DML MAR 1.000 0.012 0.031 0.033 0.034 0.934DML IV 1.000 0.031 0.031 0.033 0.939注释:“真”列显示了真实的影响,“偏差”是各估计器的偏差,“sd”是标准偏差,“RMSE”是均方根误差。“meanSE”列显示了基于所有模拟的渐近近似的平均标准误差,“coverage”列显示了基于95%置信区间的真实效应协同率。函数方法和一个无关的工具。这两种估计器似乎都收敛到了√n-比率,因为在扩大样本量时,均方根误差(RMSE)大致减少一半。基于渐近方差近似的模拟平均标准误差(meanSE)接近各自估计器的标准偏差(sd)。最后,覆盖率(覆盖率),即95%置信区间包含真实影响的模拟份额,仅略低于95%的名义水平。表2:不可忽略选择下的模拟结果真实偏差sd RMSE meanSE Coverage Gen=2000DML MAR 1.000-0.1200.0550.1320.052 0.374DML IV 1.000-0.0200.071 0.074 0.065 0.907n=8000DML MAR 1.000-0.116 0.028 0.119 0.027 0.009DML IV 1.000 0.006 0.040.040.040.036 0.915注:“真实”列显示了各个估计值的真实影响,“sd”是标准偏差,“RMSE”是均方根误差。

30
nandehutu2022 在职认证  发表于 2022-4-24 17:59:21
“meanSE”列显示了基于所有模拟的渐近近似的平均标准误差,“coverage”列显示了基于95%置信区间的真实效应协同率。在第二个模拟设计中,我们设置γ=1和σU,V=1 0.80.8 1, 这样的选择是不可忽略的,也就是说,由于U和V的强相关性,与第3节中讨论的不可观测项相关。表2给出了结果。DML-MAR不再是无偏的,而随着样本量的增加,DML-IV的偏差似乎接近于零,其代价是比DML-MAR更高的标准偏差。然而,在任一样本量下,DML-IV在RMSE较低的情况下都占DML-MAR的主导地位,因此在所考虑的情况下具有更有利的偏差-方差权衡。虽然DML IV的覆盖率相当令人满意,但95%的置信区间大多未能包括DML MAR的真实影响,尤其是在较大的样本量下。7.应用作为一个实证说明,我们将我们的方法应用于就业团队(JC)培训计划。这些数据来自美国国家就业团队研究(NJCS),这是一项于20世纪90年代中后期在美国进行的随机社会实验,旨在评估不同劳动力市场结果的有效性。JC是美国最大、最全面的针对弱势青年的就业培训项目,参与者可以接触到不同类型的学术和职业指导。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-29 03:12