楼主: 何人来此
2513 50

[经济学] 样本选择模型的双机器学习 [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
64.8012
学术水平
1 点
热心指数
6 点
信用等级
0 点
经验
24593 点
帖子
4128
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
何人来此 在职认证  发表于 2022-4-24 17:56:15 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Double machine learning for sample selection models》
---
作者:
Michela Bia, Martin Huber, Luk\\\'a\\v{s} Laff\\\'ers
---
最新提交年份:
2021
---
分类信息:

一级分类:Economics        经济学
二级分类:Econometrics        计量经济学
分类描述:Econometric Theory, Micro-Econometrics, Macro-Econometrics, Empirical Content of Economic Relations discovered via New Methods, Methodological Aspects of the Application of Statistical Inference to Economic Data.
计量经济学理论,微观计量经济学,宏观计量经济学,通过新方法发现的经济关系的实证内容,统计推论应用于经济数据的方法论方面。
--
一级分类:Statistics        统计学
二级分类:Methodology        方法论
分类描述:Design, Surveys, Model Selection, Multiple Testing, Multivariate Methods, Signal and Image Processing, Time Series, Smoothing, Spatial Statistics, Survival Analysis, Nonparametric and Semiparametric Methods
设计,调查,模型选择,多重检验,多元方法,信号和图像处理,时间序列,平滑,空间统计,生存分析,非参数和半参数方法
--
一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--

---
英文摘要:
  This paper considers the evaluation of discretely distributed treatments when outcomes are only observed for a subpopulation due to sample selection or outcome attrition. For identification, we combine a selection-on-observables assumption for treatment assignment with either selection-on-observables or instrumental variable assumptions concerning the outcome attrition/sample selection process. We also consider dynamic confounding, meaning that covariates that jointly affect sample selection and the outcome may (at least partly) be influenced by the treatment. To control in a data-driven way for a potentially high dimensional set of pre- and/or post-treatment covariates, we adapt the double machine learning framework for treatment evaluation to sample selection problems. We make use of (a) Neyman-orthogonal, doubly robust, and efficient score functions, which imply the robustness of treatment effect estimation to moderate regularization biases in the machine learning-based estimation of the outcome, treatment, or sample selection models and (b) sample splitting (or cross-fitting) to prevent overfitting bias. We demonstrate that the proposed estimators are asymptotically normal and root-n consistent under specific regularity conditions concerning the machine learners and investigate their finite sample properties in a simulation study. We also apply our proposed methodology to the Job Corps data for evaluating the effect of training on hourly wages which are only observed conditional on employment. The estimator is available in the causalweight package for the statistical software R.
---
PDF下载:
--> Double_machine_learning_for_sample_selection_models.pdf (836.11 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:样本选择模型 样本选择 选择模型 机器学习 econometrics

沙发
mingdashike22 在职认证  发表于 2022-4-24 17:56:23
用于样本选择模型的双机器学习模型SmicHela Bi*,Martin Huber **和Luk a a LaSeer-ERS + *卢森堡社会经济研究所和卢森堡大学*福里堡大学经济与计量经济学和商业分析中心,圣彼得堡州立大学+马泰基贝尔大学数学系Stract:本文考虑了由于样本选择或结果损耗,仅对一个子群体观察结果时,离散分布治疗的评估。为了进行识别,我们将治疗分配的可观察到的选择假设与关于结果损耗/样本选择过程的可观察到的选择或工具变量假设相结合。我们也考虑动态混杂,即协变的标准杆数选择和结果可能(至少部分地)被治疗所影响。为了以数据驱动的方式控制一组潜在的高维治疗前和/或治疗后协变量,我们将治疗评估的双机器学习框架应用于样本选择问题。我们利用(a)内曼正交、双重稳健和有效的评分函数,在基于机器学习的结果、治疗或样本选择模型估计中,治疗效果估计的稳健性可以缓和正则化偏差,以及(b)样本分割(或交叉匹配)可以防止过度匹配偏差。我们证明了所提出的估计器在关于机器学习者的特定正则性条件下是渐近正态和根不相容的,并在模拟研究中研究了它们的有限样本性质。我们还将建议的方法应用于就业团队的数据,以评估培训对小时工资的影响,而小时工资仅以就业为条件。

藤椅
mingdashike22 在职认证  发表于 2022-4-24 17:56:30
该估计器在统计软件R的因果权重包中可用。关键词:样本选择、双机器学习、双稳健估计、效率得分。JEL分类:C21。我们有Alyssa Carlson、大卫·卡普兰、Peter Mueser和密苏里堪萨斯大学的与会者的评论。通讯地址:Michela Bia,卢森堡社会经济研究所,11 Porte des SciencesHumaines,Maison des Sciences,4366 Esch sur Alzette/Belval,卢森堡,Michela。bia@liser.lu米歇尔。bia@ext.uni.lu; Martin Huber,福里堡大学,Bd. de P Eulle 90, 1700弗里堡,瑞士,马丁。huber@unifr.ch; Luk\'aˇs La Offers,马特吉贝尔大学,塔乔夫斯切霍4097411班斯克阿比特里卡,斯洛伐克,卢卡斯。拉弗ers@gmail.com.La offers承认斯洛伐克研究与发展机构提供的支持,合同号为APVV-17-0329和VEGA-1/0692/20.1引言在许多旨在评估治疗或政策干预因果效应的研究中,非随机结果损耗或样本选择使实证分析变得复杂。例如,当工资仅针对工作人员的选择性子群体进行观察时,对教育回报的估计,或者当学生非随机地放弃考试时,教育干预的效果,如私立学校的学生在大学入学考试中的接触。此外,在观察性研究中,治疗分配通常不是随机的,这意味着研究人员面临双重选择问题,即对治疗的选择和结果的可观察性。

板凳
大多数88 在职认证  发表于 2022-4-24 17:56:36
大量文献根据可观察的假设,通过assuminga选择来解决治疗选择问题,这意味着治疗与随机分配一样好,取决于观察到的治疗前协变量,例如参见Imbens(2004)和Imbens and Wooldridge(2009)的综述。此外,越来越多的研究解决了如何以基于机器学习算法的数据驱动方式控制潜在高维协变量向量中的关键混杂因素的问题,例如,参见Chernozhukov、Chetverikov、Demirer、Du flo、Hansen、Newey和Robins(2018)的双机器学习框架。在本文中,我们将双机器学习框架应用于存在样本选择或结果损耗的二元或多重离散处理的评估。在确定假设方面,我们将治疗任务的可观察到的选择假设与关于结果损耗/样本选择过程的可观察到的选择或工具变量假设相结合。之前,Huber(2012)和Huber(2014b)在基于逆概率加权的平均治疗效果(ATE)估计中考虑了这些假设,但是,对于预选(或固定)协变量。作为方法学的进步,我们推导出了在双重选择下评估治疗效果的双重稳健和有效的评分函数,并证明它们满足所谓的Neyman(1959)正交性。后一个属性允许通过基于机器学习的特定条件下的治疗、结果和损耗模型估计,以数据驱动的方式控制协变量。

报纸
能者818 在职认证  发表于 2022-4-24 17:56:43
因此,重要混杂因素的子集不需要先验已知(但必须包含在整个协变量集中),这在具有大量可能用作控制变量的协变量的高维数据中特别有用。我们还考虑了基于可观察性假设的序贯选择的动态混杂,这与动态治疗E.ECT文献中发现的假设密切相关,例如,iRubin(1986)、罗宾斯(1998)和LeNeHER(2009)。这一假设允许共同影响样本选择和结果的协变量本身可能是治疗的函数,ascenario在样本选择模型中被广泛忽略,尽管它在实证应用中可能具有相关性。特别是当治疗分配和样本选择过程之间存在很大的时间差时,利用治疗后协变量来解决选择结果混淆似乎比单纯依靠治疗前协变量(如基于可观察假设的常规选择)来解决治疗内生性和样本选择更具说服力。继Chernozhukov、Chetverikov、Demirer、Du flo、Hansen、Newey和Robins(2018)之后,我们证明了基于我们的得分函数(根据各种识别假设定制)的治疗效果估计在特定的正则性条件下是根n一致且渐近正态的,尤其是在-机器学习者的1/4收敛性。双机器学习框架的另一个条件是防止由于不同估计步骤之间的相关性而产生的过度匹配偏差。这是通过一方面估计治疗、结果和选择模型,另一方面在数据的不同部分估计治疗效果来实现的。

地板
mingdashike22 在职认证  发表于 2022-4-24 17:56:49
正如切尔诺朱科夫、切特韦里科夫、德米雷尔、杜弗洛、汉森、纽伊和罗宾斯(2018年)所述,我们随后交换了数据部分的角色,并平均了过度处理的影响,以防止渐进效率损失,这一过程被称为交叉拟合。Wealso还提供了一项模拟研究,表明我们的估计器在考虑了数千个观测值的模拟设计中,在根均方误差和覆盖率(通过置信区间)方面表现良好。最后,我们给出了一个以女性为样本的实证说明,这是一项针对美国弱势青年的大型培训项目——就业团队的研究。我们运用DML估计器来评估学术和职业培训对小时工资的影响,小时工资仅以就业为条件进行观察,在项目分配一年和四年后,找到一些长期积极影响的统计证据。我们的论文涉及一系列关于样本选择和选择性结果消耗的研究。其中一部分文献基于可观测假设(也称为随机缺失(MAR)条件)对磨损过程进行建模。后者强调了样本选择和结果的条件独立性,并给出了卵巢和治疗等观察信息。例如鲁宾(1976年)、利特尔和鲁宾(1987年)、卡罗尔、鲁佩特和斯特凡斯基(1995年)、沙阿、莱尔德和舍恩菲尔德(1997年)、菲茨杰拉德、戈特恰尔克和莫菲特(1998年)、阿博德、克里彭和克拉玛兹(2001年)、伍尔德里奇(2002年)和伍尔德里奇(2007年)。Robins、Rotnitzky和Zhao(1994年)、Robins、Rotnitzky和Zhao(1995年)以及Bangand Robins(2005年)讨论了当条件结果或损耗模型得到正确描述时,在MAR下一致的结果的双重稳健估计。

7
nandehutu2022 在职认证  发表于 2022-4-24 17:56:56
这种方法满足了双机器学习所需的内曼正交性。然而,他们的框架并没有考虑双重选择的治疗和结果的可观察性的同时,我们在本文中所做的。Negi(2020)提出了一种双重选择下的替代估计器,该估计器属于Sloczy’nski和Wooldridge(2018)中描述的加权M估计框架,并具有双重稳健性,即在条件结果模型或治疗和选择模型的参数误判下保持一致。然而,这种基于重新加权结果模型的方法与我们利用有效的影响函数的方法不同,据我们所知,Neyman(1959)的正交性(如双机学习所需)尚未用于加权M估计(尽管我们证明了我们提出的估计量的这一性质)。另一个问题是,当对预处理协变量进行控制以处理双选择时,NIGI(2020)侧重于处理估值,此外,我们还考虑了基于前处理和后处理协变量(动态混杂)的标识,或者选择样本的工具。与基于MAR的识别不同,所谓的样本选择或不可忽略的无反应模型允许对磨损过程和结果进行未观察到的混淆。除非Heckman(1976)、Heckman(1979)、Hausman and Wise(1979)和Little(1995)等强函数形式假设成立,否则识别需要工具变量(IV)进行样本选择。关于这种情况下的非参数估计方法,我们参考了Das、Newey和Vella(2003)、Newey(2007)、Huber(2012)和Huber(2014b)。

8
nandehutu2022 在职认证  发表于 2022-4-24 17:57:03
据我们所知,这项研究是在不可忽略的结果损耗下提出一种双稳健处理的E-ECT估计器,并考虑机器学习技术来进行控制,巴恩韦尔和查德胡里(2020)考虑了单调单调假设下的几个结果周期(即结果损坏是一个随时间微弱递增的吸收状态),并讨论了在这一情况下基于E函数的随机分配的评价。相比之下,我们的框架考虑了一个单一的结果期,并允许选择与观察到的混杂因素相关的治疗。在这种情况下(可能是高维的)协变量。我们的估计器可在Bodory和Huber(2018)的R的因果权重包中找到。本文的工作如下。使用潜在结果框架,第2节讨论了在治疗前协变量的条件下,当结果被假定为缺少一个随机变量时(即选择是基于可观察的,如治疗),平均治疗效果的确定。第3节讨论了当结果损耗与不可观察因素(称为不可忽略的不反应)相关时的识别,以及解决该问题的工具。第4节展示了在观察值的顺序选择下的识别,允许动态混杂,这意味着在治疗前和治疗后协变量的随机条件下,假设结果缺失。第5节提出了一种基于双机器学习的估计器,并在特定的正则条件下证明了根n一致性和渐近正态性。第6节提供了一个模拟研究。第7节介绍了对美国就业团队研究数据的实证应用。

9
能者818 在职认证  发表于 2022-4-24 17:57:10
第8节结束。2随机缺失下的识别我们的目标参数是二元或多重离散分布治疗变量D对结果变量Y的平均治疗效果(ATE)。为了确定利益的影响,我们使用潜在结果框架,见Rubin(1974)。设Y(d)表示假设治疗分配d下的潜在结果∈ {0,1,…,Q},其中0表示未治疗,1。。。,Q不同的治疗选择(其中Q表示非零治疗的数量)。当比较两种不同的治疗方法时,ATE d 6=d对应于 = E[Y(d)-Y(d)]。此外,让Y表示在实际分配给受试者的治疗(f)下实现的结果,即Y=Y(D)。因此,Y对应于接受治疗的潜在结果,而任何反事实治疗任务的潜在结果仍然未知。我们的评估框架中的另一个复杂问题是,假设Y只在一个子群体中观察到,即S=1,其中S是一个二元变量,指示Y是否被观察/选择。部分观察结果的实证例子包括工资回归,使用S beingan就业指标,参见Gronau(1974)或教育政策干预对考试成绩影响的评估,S代表参加考试,seeAngrist,Bettinger和Kremer(2006)。在我们的讨论中,S被允许是D和X的函数,即S=S(D,X)。然而,S既不能受到影响,也不能受到影响。因此,选择本身不会对结果产生因果影响。

10
nandehutu2022 在职认证  发表于 2022-4-24 17:57:16
以下非参数coutcome和选择模型满足这个框架:Y=φ(D,X,U),S=ψ(D,X,V),(1)其中U,V是不可观测的特征,φ,ψ是一般函数。在整篇论文中,我们假设稳定的单位治疗价值假设(SUTVA,Rubin(1980))持有这样的Pr(D=D)==> Y=Y(d))=1这排除了相互作用或一般平衡效应,并表明治疗是唯一确定的。随后,当治疗选择和结果损耗均与观察到的特征相关时,我们将允许确定平均治疗效果的假设形式化。假设1(治疗的条件独立性):Y(d)⊥D | X=X表示所有D∈ {0,1,…,Q}和x支持x。根据假设1,不存在共同影响治疗和结果的不可观测项,条件是协变量x。对于模型(1),这意味着U与影响给定x的不可观测项无关。在观察性研究中,这一假设的合理性关键取决于数据的丰富性,而在实验中,假设2(选择的条件独立性):Y⊥S | D=D,X=X表示所有D∈ 支持x的{0,1,…,Q}和x。根据假设2,没有不可观察的因素共同影响选择和以D,x为条件的结果,因此鲁宾(1976)命名的结果随机缺失(MAR)。换句话说,选择被认为是选择性的。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-29 01:23