楼主: kedemingshi
1937 51

[经济学] 未观察到混淆的核心方法:阴性对照、代理、, [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
15 个
通用积分
89.2735
学术水平
0 点
热心指数
8 点
信用等级
0 点
经验
24665 点
帖子
4127
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
kedemingshi 在职认证  发表于 2022-4-26 14:28:30 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Kernel Methods for Unobserved Confounding: Negative Controls, Proxies,
  and Instruments》
---
作者:
Rahul Singh
---
最新提交年份:
2021
---
英文摘要:
  Negative control is a strategy for learning the causal relationship between treatment and outcome in the presence of unmeasured confounding. The treatment effect can nonetheless be identified if two auxiliary variables are available: a negative control treatment (which has no effect on the actual outcome), and a negative control outcome (which is not affected by the actual treatment). These auxiliary variables can also be viewed as proxies for a traditional set of control variables, and they bear resemblance to instrumental variables. I propose a family of algorithms based on kernel ridge regression for learning nonparametric treatment effects with negative controls. Examples include dose response curves, dose response curves with distribution shift, and heterogeneous treatment effects. Data may be discrete or continuous, and low, high, or infinite dimensional. I prove uniform consistency and provide finite sample rates of convergence. I estimate the dose response curve of cigarette smoking on infant birth weight adjusting for unobserved confounding due to household income, using a data set of singleton births in the state of Pennsylvania between 1989 and 1991.
---
中文摘要:
消极控制是一种在存在未测量的混杂因素时学习治疗和结果之间因果关系的策略。然而,如果有两个辅助变量可用,则可以确定治疗效果:阴性对照治疗(对实际结果没有影响)和阴性对照治疗(不受实际治疗影响)。这些辅助变量也可以被视为一组传统控制变量的代理,它们与工具变量相似。我提出了一系列基于核岭回归的算法,用于学习负控制的非参数治疗效果。例子包括剂量反应曲线、分布偏移的剂量反应曲线和异质治疗效应。数据可以是离散的或连续的,也可以是低维、高维或无限维的。证明了一致相合性,并给出了有限样本收敛速度。我使用宾夕法尼亚州1989年至1991年间的一组独生子女数据,估计了吸烟对婴儿出生体重的剂量反应曲线,并对家庭收入引起的未观察到的混淆进行了调整。
---
分类信息:

一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Economics        经济学
二级分类:Econometrics        计量经济学
分类描述:Econometric Theory, Micro-Econometrics, Macro-Econometrics, Empirical Content of Economic Relations discovered via New Methods, Methodological Aspects of the Application of Statistical Inference to Economic Data.
计量经济学理论,微观计量经济学,宏观计量经济学,通过新方法发现的经济关系的实证内容,统计推论应用于经济数据的方法论方面。
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:econometrics relationship instrumental Pennsylvania Applications

沙发
何人来此 在职认证  发表于 2022-4-26 14:28:41
未观察到混淆的核心方法:阴性对照、代理和仪器。singh@mit.eduAbstractNegative控制是一种在存在未测量的混杂因素的情况下学习治疗和结果之间因果关系的策略。然而,如果有两个辅助变量可用,则可以确定治疗效果:阴性对照治疗(对实际结果没有影响)和阴性对照治疗(不受实际治疗影响)。这些辅助变量也可以被视为一组传统控制变量的代理,它们与工具变量具有相似性。我提出了一系列基于核岭回归的算法,用于学习负控制的非参数治疗效果。例子包括剂量反应曲线、具有分布偏移的剂量反应曲线和异种治疗效应。数据可以是不连续的,也可以是低维、高维或有限维的。我证明了一致性,并提供了有限的样本收敛速度。我使用1989年至1991年宾夕法尼亚州的一组单胞胎出生数据,估计了吸烟对婴儿出生体重的剂量-反应曲线,这是由于家庭收入导致的未观察到的混淆的调整。1动机基于观察值的选择是因果影响中流行的假设,即在对协变量X进行条件反射后,治疗D的分配与随机分配一样好。这是一个stron g ca usal假设,即使在实验室环境中也经常被违反。在实验室科学中广泛使用的阴性对照可以防止未观察到的欺诈行为。其目的是检查只有在存在未观察到的混杂因素U的情况下才会不为零的虚假关系——这种方法有时被称为虚假或特定性测试。

藤椅
何人来此 在职认证  发表于 2022-4-26 14:28:47
考虑两个辅助变量:阴性对照治疗Z(先验对实际结果Y没有影响)和阴性对照结果W(先验不受实际治疗D影响)。在[Miao and Tchetgen,2018,Deaner,2 018]中,作者仔细地将一个学习问题形式化,在这个问题中,阴性对照(Z,W)不仅可以检查未观察到的混淆U的存在,还可以恢复inte rest的因果关系。作为一个具体的例子,考虑[Lousdal等人,2020]的经验策略。目的是测量乳腺X光筛查对乳腺癌死亡的影响。这组协变量包括婚姻状况、子女数量、第一胎年龄、受教育年限、年收入和激素药物使用。作者使用阴性对照来记录,即使考虑到协变量X,未观察到的混淆U也会导致虚假相关性。具体而言,在数据集中,牙科护理参与降低了乳腺癌死亡的可能性。乳房X光摄影检查降低了数据集中其他c a使用W导致死亡的可能性。作者得出结论,在这种情况下,未观察到的混淆会影响治疗效果的评估。预印本。正在审查中。在目前的工作中,我提出了一系列基于核岭回归的非参数算法,使用负控制不仅可以检测,而且可以调整f或未观察到的混杂。I c考虑人群、亚人群和具有交替协变量分布的替代人群的治疗效果。此外,我还考虑了治疗、协变量和阴性对照,它们可能是离散的或连续的,也可能是低维、高维或有限维的。由于消极控制的直观性,我在整篇论文中使用了这样的术语。

板凳
大多数88 在职认证  发表于 2022-4-26 14:28:53
在最近的研究中,[Tchetgen et al.,2020]将阴性对照称为代理变量,以强调它们不仅可能出现在实验环境中,也可能出现在观察环境中。由于阴性对照和工具变量之间的形式相似性,我提供的新统计结果也适用于非参数计量工具变量回归(NPIV)。1.2贡献概念。我将各种学习问题与未观察到的混淆统一为一个一般的非参数学习问题。在半参数因果推理中,处理D被限制为二元。我考虑非参数因果推理,允许处理D不仅是二进制的,而且是离散的或连续的。这似乎是首次使用阴性对照研究剂量反应曲线和异质治疗效应。我为未来的流行病学研究提供了一个模板,用以评估剂量-反应曲线和来自医疗记录的不均匀治疗效果,尽管未观察到混淆。算法的。我提出了一系列新的估值器,这些估值器具有易于通过矩阵运算计算的闭式解。为此,我假设真正的因果关系是重构核希尔伯特空间(RKHS)中的一个函数,而ich是机器在线学习中常用的非参数设置。超参数包括岭回归惩罚和核超参数。对于前一种情况,我推导出了省略交叉验证的闭式解。后者有众所周知的启发法。我在模拟中评估我的估计器,与忽略未观察到的混淆的替代估计器进行比较。统计的我证明了与有限样本率的一致性。在制定政策决策时,统一的保证标准会对最坏的情况提出警告。

报纸
nandehutu2022 在职认证  发表于 2022-4-26 14:28:59
收敛的有限样本率并不直接取决于数据维度,而是取决于真实因果关系的平滑度。一个重要的中间结果是在sup norm中对NPIV进行有限样本分析。出于独立的兴趣,我将不适定逆pr问题——存在性和完备ess——所需的假设与RKHS设置联系起来。在RKHS之前的NPIV工作中,似乎没有这种描述。经验主义的由于几个原因,估计吸烟对婴儿出生体重的影响具有挑战性。首先,孕妇被归类为可手术人群,因此她们通常被排除在临床试验之外;观测数据是唯一的选择。其次,怀孕会引起许多生理变化,因此医学知识预测怀孕妇女与未怀孕妇女的剂量反应曲线不同。第三,医疗记录包括一个未被观察到的对母婴健康至关重要的混杂因素:家庭收入。我证明了病历中包含满足阴性对照性质的变量。我使用宾夕法尼亚州1989年至1991年间的一组单胎出生数据来估计剂量反应曲线。本文的结构如下。第2节介绍了相关工作。第三节:恶意学习问题。第四节提出了新的算法。第5节证明了一致性。第6节进行模拟实验,估计吸烟对婴儿体重的剂量-反应曲线,并调整因家庭收入引起的未观察到的混淆。第7节结束。2.相关工作我将剂量-反应曲线和异质性治疗效应视为由不适定反问题定义的结构功能的重新加权。因此,我扩展了部分手段框架[Newey,1994]。

地板
nandehutu2022 在职认证  发表于 2022-4-26 14:29:05
关于部分平均数的现有研究认为,消费者盈余[Newey,1994]和某些因果参数[Singh等人,2020]是条件期望函数的重新加权。相反,我认为因果参数是结构函数的重加权。因此,Myunifor m分析推广了以前工作中的统一分析。为了以这种方式表达因果参数,我总结了使用负控制的治疗效果的识别定理[Miao等人,2018年,Miao和Tchetgen,2018年,迪纳,2018年,Tchetgen等人,2020年]。早期关于阴性对照的研究强调了它们在检测未观察到的混淆方面的作用。早在20世纪50年代,流行病学微生物学家就提出了因果特异性原则作为诊断工具[Berkson,1958,Yerushalmy and Palmer,1959,Hill,1965]。随后的工作使这些概念正式化[Rosenbaum,1989年,Weiss,2002年,Lipsitch等人,2010年]。最近的一篇文献强调了负性控制在调节混杂中的作用。许多论文通过附加结构消除了未观察到的混淆中的偏见:线性和规范性[Gagnon-Bar-tsch and Speed,2012,Wang等人,2017];联合常态[Kuroki and Pearl,2014];个人潜在结果的等级保护[Tchetgen,2014];或混杂效应的单调性[Sofer等人,2016]。我推广了放松这种加法结构的识别结果。在econo metrics中,密切相关的策略针对动态环境中未观察到的混淆进行调整:差异中的差异[Card,1990年,Meyer,1995年,Abadie,2005年]和泛el-p roxy控制[Deaner,2018年]。传统的差异分析中的差异需要很强的假设,比如混杂的线性和加性可分性。

7
可人4 在职认证  发表于 2022-4-26 14:29:12
[Athey and Imbens,2006]提出了一种更为普遍的方法,称为变化中的变化,用不可分离的非线性结构模型表达。一个关键假设是混杂效应的单调性。重要的是,该模型允许非线性,而无需混杂效应的单调性。Panel proxycontrol方法也以一个不可分离的非线性结构模型为基础,其静态特例完全适用于负控制模型。[Deaner,2018]提出了一个系列评估工具以及创新策略,用于处理静态和动态环境下的不适定性和完整性。使用本文开发的技术推导面板代理设置的anRKHS估计量是很简单的。参见[So fer等人,2016年]和[Deaner,2018年],分别了解负控制与差异控制和面板代理控制的明确比较。我为越来越多的文献做了贡献,认为ad适用RKHS方法来评估治疗效果。[Nie and Wager,2017]提出了一个RKHS估计器,用于在可观测数据上选择异质治疗效应,并证明均方误差率。我追求对异质治疗效应的更一般的定义,其条件是一些可解释的子向量V X[Ab revaya等人,2015年],并考虑到未观察到的混淆。[Singh等人,2019]提出了非参数辅助变量回归的RKHS方法,并证明了均方误差率。[Singh et al.,20]提出了一种RKHS方法,用于通过选择观察值和验证率来确定治疗效果。我统一了两个工程中的RKHS结构,以处理位置不当和重新称重。我的工作是互补的,因为我考虑了一个新的音频环境。

8
大多数88 在职认证  发表于 2022-4-26 14:29:19
我的一致性分析不仅适用于阴性对照治疗效果,也适用于非参数仪器变量回归,在比[Singh等人,2019]更少的假设下提供了不同的原始结果。我对[Smale和Zhou,2005年,Smale和Zhou,2007年]的基本统计贡献感兴趣。本文原稿于2020年12月在arXiv上分发,这是首次对阴性对照环境进行tobring RKHS分析。随后,有几项工作提出了交替RKHS估计。[Kalues等人,2021,GHASAMI等人,2021 ]研究半参数问题,而不是这里考虑的非参数IC问题。这两项工作都提出了双鲁棒估计,结合了由极小极大过程估计的干扰函数。在后续工作中,[Mastouri et al.,2021]只关注剂量-反应曲线,并分析算法4.2差异的超额风险。在原始草案中,算法4.1被错误引用[Singh等人,2019年,算法1],该错误已在新草案中得到纠正。主要结果完全相同。3.学习问题3。1治疗效果治疗效果是关于假设干预的反事实结果的陈述。虽然我们观察了一些结果,但我们试图推断出反事实结果{Y(d)},其中Y(d)是假设干预d=d的潜在结果。治疗效果文献旨在测量丰富多样的治疗效果,我引用[Singh等人,2020年,定义3.1]。定义3.1(治疗效果)。我确定了以下治疗效果1。θ在E(d):=E[Y(d)]是整个人群2的干预措施d=d的反事实平均结果。θDS(d,~P):=EP[Y(d)]是数据分布为P(在假设3.3中详细阐述)3的替代人群在给定干预措施d=d的情况下的实际平均结果。

9
何人来此 在职认证  发表于 2022-4-26 14:29:25
T(d,d′)处的θ:=E[Y(d′)|d=d]是实际接受治疗d=d4的亚人群中给定干预d=d′的反事实平均结果。θcate E(d,v):=E[Y(d)| v=v]是cova ria v值v=v的亚群的反事实平均结果g iv en干预d=d每个非参数治疗效应的上标对应于其半标准a度量类似物。如果治疗是仓促的,那么平均治疗效果(ATE)是e[Y(1)- Y(0)];分布移位(DS)的平均治疗效果为EP[Y(1)- Y(0)];关于治疗(ATT)论文的平均论文[Y(1)- Y(0)| D=1];条件平均治疗效果(CATE)为E[Y(1)- Y(0)| V=V]。我分析了离散或连续治疗的潜在结果,而不是二元治疗的潜在结果差异。E(d)处的θ有许多名称:剂量反应曲线、持续治疗效果和平均结构函数。如果tream e nt是二进制的,那么e(d)处的θ是Rand中的向量,学习问题是半参数的。如果处理是离散的或连续的,那么E(d)处的θ是一个函数,学习问题是非参数的。θDS(d,~P)是一个密切相关的方差t,用于处理卵巢分布发生变化的情况。这种变体可以称为分布移位、协变量移位、政策效应或转移学习。T(d,d′)上的θ和E(d,v)上的θ都涉及对特定亚群的调节。如果处理是二元的,那么T(d,d′)处的θ是R2×2中的矩阵,学习问题是半参数的。如果处理是离散的或连续的,那么t(d,d′)处的θ是一个曲面,学习问题是非参数的。θcate(d,v)也是如此。T(d,d′)处的θ称为条件平均结构函数,而θCAT E(d,v)称为异质处理效应。

10
何人来此 在职认证  发表于 2022-4-26 14:29:31
与典型的异质性治疗效应相比,D不连续或连续以及V是X的子集的可能性更为普遍[Nie和Wager,201 7]。3.2阴性对照识别在开创性工作中,[Tchetgen等人,2020]提出了一个潜在的结果模型,在该模型中,治疗效应可以从结果Y、治疗D和,和协变量(V,X),尽管未观察到混淆。该技术涉及两个辅助变量:阴性对照治疗Z和阴性对照结果W。在该模型中,潜在结果{Y(d,z)}和潜在负性控制结果{W(d,z)}最初由治疗值d=d和负性控制治疗t值z=z进行索引。假设3.1(阴性对照)。假设1。无干扰:如果D=D和Z=Z,则Y=Y(D,Z)和W=W(D,Z)2。潜在可交换性:{Y(d,z)},{W(d,z)}d,z|U,X3。重叠:如果f(u,x)>0,那么f(d,z | u,x)>0,其中f(u,x)和f(d,z | u,x)是密度4。阴性对照治疗:Y(d,z)=Y(d)5。阴性对照结果:W(d,z)=wf对于θcate,用(V,X)代替X。在因果推理中,无干扰也被称为一致性或稳定的单位处理值假设,它控制着网络效应。潜在可交换性表明,以协变量X和未观察到的混杂因子U为条件,治疗分配和阴性对照治疗分配与rando m一样好。潜在可交换性重新定义了条件可交换性的经典假设,其中U=, 即。其中没有未被观察到的混淆。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-27 10:25