楼主: kedemingshi
1937 51

[经济学] 未观察到混淆的核心方法:阴性对照、代理、, [推广有奖]

21
可人4 在职认证  发表于 2022-4-26 14:30:41
扩展[Szabóet al.,2016]和[Singh et al.,2019]中的结构,我定义了一个混淆的桥核Ohm : H×H→ R如此Ohm(φ(d,x,w),φ(d′,x′,w′)=k(d,d′)k(x,x′)k(w,w′)。构造桥内核Ohm 对应于标量值RKHSHOhm等轴同构于H。核仪器变量回归是在almean嵌入u(d,x,z):=zφ(d,x,w)P(w | d,x,z)=φ(d)条件下结果Y的回归φ(x)uw(d,x,z)=φ(d)φ(x)E*φ(d,x,z)广义二阶最小二乘法(2SLS)。注意,E*是E的伴随。通过假设E的光滑度,我假设了μ(d,x,z)的光滑度。通过建造,令人困惑的桥梁核心Ohm 将提供RKHS,以根据条件平均嵌入u(d,x,z)回归结果Y。以下技术结果有助于分析。命题5.1(混淆桥核属性)。假设假设4.1成立。然后是Confounding bridge内核Ohm 满足感1。Ohm(u(d,x,z),u(d′,x′,z′)=k(d,d′)k(x,x′)Rk(w,w′)P(w|d,x,z)P(w′,d′,x′,z′)2。KOhm(·,u(d,x,z))- Ohm(·,u(d′,x′,z′)kHOhm≤ ku(d,x,z)-u(d′,x′,z′)kh参见附录A中的证明。解释前一个表达式,c onfounding bridge内核Ohm 允许我们在条件平均嵌入u(d,x,z)上回归,该u(d,x,z)编码条件检测算子E。解释后一个表达式,即混杂桥核满足某种H"older连续性。将本文的分析推广到更丰富的选择是很简单的Ohm 只要某种形式的霍尔德连续性成立;参见[Szabóet al.,2016,表1]了解替代选择。有了这个符号,我们已经准备好为共建桥h阐述一个平滑假设。假设5.3(混杂桥的Sm oothness)。

22
可人4 在职认证  发表于 2022-4-26 14:30:47
假设H∈ [H]Ohm]在这些条件下,我得到了第一个主要结果:混淆桥的一致性。该结果似乎是RKHS中非参数辅助变量回归的首次样本均匀分析。为了这个定理的目的,我让n表示在第1阶段中使用的观测数量,m表示在第2阶段中使用的观测数量,允许不对称样本分割的可能性,以及在第1阶段和第2阶段中使用来自不同数据集的观测。最终样本率用(n,m)表示。参数a>0表示阶段1和阶段2样本之间的比率。定理5.1(混淆桥的一致性)。假设假设假设3.2,4.1,5.1,5.2,a=W,B=D×X×Z,5.3保持不变。设置λ=n-c+1和n=ma(c+1)c-1其中a>0.1。如果≤c+3c+1然后k^h-香港∞= Op(m)-a(c)-1) c+3),其中ξ=m-ac+32。如果≥c+3c+1然后k^h-香港∞= Op(m)-C-1c+1),其中ξ=m-c+1有关确切的最终采样率,请参见附录D。当a=c+3c+1<2时,收敛速度m-C-1c+1关于m的单阶段核岭回归率[Smale和Zhou,2007]。该速率由c(混杂桥算子H的平滑度)校准。然而,该速率要求阶段1和阶段2样本之间的比率为n=mc+3c+1·(c+1)c-1,暗示n>> m、 在实践中,分析师通常只是重复使用样本。推论5.1(重复使用样本)。如果重复使用样本来估算EAN和h,则n=m,a=c-1c+1<1,ξ=n-C-1(c+1)(c+3)和k^h-香港∞= Op(n)-C-1c+1c-1c+3)该速率适应条件期望算子Eas的平滑度以及混淆桥h的平滑度ss c。低速率反映了在不适定逆问题m中统一标准T的挑战。

23
kedemingshi 在职认证  发表于 2022-4-26 14:30:52
在进一步假设RKH的光谱l衰减的情况下,可能会有更快的速率,这将留待进一步研究。5.2治疗效果从定理4.1中可以看出,θAT和θCAT分别包含条件平均嵌入u(d)和u(v)。我通过Gorithm 4.2中的核岭回归来估计这些条件平均嵌入。为了控制脊线正则化引入的偏差,我将平滑度条件也设置为(1)的u(d)和u(v)。如d讨论中所述,关于uw(d,x,z)和E,条件平均嵌入对应于条件期望算子。和以前一样,你只需要指定AJ和BJ来专门化这个假设。对于u(d),A=X×W,B=d;对于u(v),A=X×W,B=v。在这些条件下,我得到了第二个主要结果:治疗效果估计量的一致一致性。为了简单起见,我假设分析员重用样本,因此n=m。定理5.2(治疗效果的一致性)。假设假设3.1成立,以及定理m 5.1的条件成立。集合(λ,λ,λ)=(n)-c+1,n-c+1,n-c+1)a和ξ=n-C-1(c+1)(c+3)1。E处的k^θ- θ在Ek∞= OpN-C-1c+1c-1c+32.如果附加假设3.3成立,则k^θDS(·P)-θDS(·P)k∞= OpN-C-1c+1c-1c+3+~n-3.如果附加假设5.2在A=X×W A和B=D时成立,则T处的k^θ- Tk处的θ∞= OpN-C-1c+1c-1c+3+n-C-1c+14.如果另外假设5.2在A=X×W A和B=V时成立,则k^θCAT E- θCAT-Ek∞= OpN-C-1c+1c-1c+3+n-C-1c+1有关确切的最终采样率,请参见附录E。检查这些比率,我们发现每一个比率都是推论5.1中的信息桥的比率,以及适当的平均嵌入估计程序的比率,无论是平均值还是核岭回归。

24
nandehutu2022 在职认证  发表于 2022-4-26 14:30:59
速率与混杂桥函数的平滑度参数(c、c、c、c)相适应,条件是平均嵌入u(d、x、z)、u(d)和u(v)。等效地,速率与混杂桥算子和条件期望算子E、E和E的平滑度参数(c、c、c、c)相适应。本项目的目标是提出剂量反应和异质治疗效应估计器,以最终影响政策和医疗决策。为此,我证明了一个统一的保证,严格控制y水平治疗的误差,而不是控制平均水平治疗误差的均方保证。统一担保是以降低利率为代价的。在负控制处理效果估计中,基础桥梁学习问题的不适定性构成了这种现象。定理5.2似乎是非参数负控制效应的第一个有限样本分析,在较弱的假设下成立。获得更快的速率,也许是通过对光谱衰减的进一步假设,是未来工作的一个重要方向。6.申请。1模拟我评估新估计器的经验性能。我关注阴性对照的剂量反应,并用不同的样本大小设计不同的设计。具体而言,我将新算法(阴性对照)与剂量反应(治疗效果)的现有RKHS算法进行了比较[Singh等人,2020],该算法忽略了未观察到的混淆,而是将阴性对照分类为附加协变量。新算法涉及重新加权混杂桥,而之前的算法涉及重新加权回归。

25
mingdashike22 在职认证  发表于 2022-4-26 14:31:05
对于每个设计、样本大小和d算法,我执行了20次模拟,并计算了与TrueCounterfact函数相关的MSE-1.0-0.50.00.51 5 10协变量的维度对数均方误差算法治疗效果阴性对照(a)可变协变量维度-0.6-0.30.00.30.6100 500 1000 5000 10000训练样本大小对数均方误差算法治疗效果阴性对照(b)可变样本大小图2:模拟结果具体而言,我采用了[Colangelo and Lee,20]提出的连续治疗效果设计。虽然[Colangelo和Lee,2020]研究的原始环境没有未观察到的混淆,但我的修改确实存在未观察到的混淆。目标是学习E(d)=1.2d+d时的反事实函数θ。单个观察包括结果、阴性对照结果、治疗、阴性对照治疗和协变量的元组(Y、W、d、Z、X)。具体来说,Y、W、D、Z∈ R和X∈ Rp.为了探索协变量维度的作用,我考虑了r p∈ {1,5,10}和fix样本量n=1000。这些不同的设计是同一主题的变体。为了探索样本量的作用,我建议∈ {100,500,1000,5000,10000}和fix协变量维度P=5。这种样本量范围在流行病学研究中很常见。图2显示了结果。在整个设计和样本量中,使用阴性对照来调整未观察到的混淆,可以改善表现。实施细节见附录G。6.2吸烟的剂量反应由于以下几个原因,估计吸烟对婴儿体重的影响具有挑战性。首先,孕妇被归类为弱势群体,因此她们通常被排除在任何类型的临床试验之外。当inte rest治疗造成损害时,伦理考虑排除了随机化。因此,观测数据是唯一的选择。

26
何人来此 在职认证  发表于 2022-4-26 14:31:11
其次,怀孕会引起许多生理变化,因此医学知识预测怀孕妇女与未怀孕妇女的剂量反应曲线不同。例如,在怀孕期间,血浆容量增加35%,心输出量增加40%,肾小球滤过率(衡量肾功能的指标)增加50%[Cunningham等人,2014年]。因此,孕妇剂量-反应曲线的形状是未知的、非参数的。第三,医疗记录排除了已知对母婴健康至关重要的未观察到的混杂因素:家庭公司[Joseph et al.,2007]。幸运的是,医学记录包括阴性对照。X Wbirth order,sex,rhzeducation Dsmokingy birth weightUINCome图3:吸烟DAGI使用1989年至1991年间宾夕法尼亚州的独生子女数据集估计吸烟对婴儿出生体重的剂量-反应曲线[Almond et al.,2005],随后由[Cattaneo,2010]进行分析。我关注宾夕法尼亚州,因为超过95%的母亲都有吸烟数据。我关注的是单胎分娩,因为多胎妊娠反映了多种因素,并导致不同的胎儿生长轨迹。21%的女性报告在怀孕期间吸烟,这是该样本的d I子集。我考虑了(a)非西班牙裔白人女性(n=73834),(b)非西班牙裔黑人女性(n=17625)和(c)西班牙裔女性(n=2152)的亚群体。变量的分类广泛依赖于领域知识,因此我向哈佛医学院产科、妇科和生殖生物学系的医生寻求专业知识。为此,我们根据一本非ICALTextbook[Cunningham et al.,2014]得出了附录G,b中给出的分类。图3展示了该模型。

27
大多数88 在职认证  发表于 2022-4-26 14:31:17
教育是一种消极的控制疗法,因为它反映了由于家庭收入U而未观察到的混淆,但对出生体重Y没有直接的医学影响。婴儿出生顺序和性别是一种负性控制结果,因为家庭规模反映了家庭成员,但不是由吸烟或教育直接造成的。我们还将Rh致敏作为负性控制结果,因为它是少数不受吸烟影响的医疗条件之一(由血型引起)。人口统计学、饮酒量、产前护理、现有医疗条件、国家和年份作为协变量,因为它们可能与吸烟D和出生体重Y都有关。我实施了新算法(阴性对照)和现有的RKHS算法,用于持续治疗效果(治疗效果)[Singh等人,2020年],该算法忽略了未观察到的混淆。对于未观察到的混淆方法,我将阴性对照分类为附加协变量。图4和图5显示了白人、黑人和西班牙裔母亲的结果。每天吸烟D对出生体重的影响(单位:克Y)通常为负,在亚群体中的形状相似。当香烟数量较多时,黑人和西班牙裔母亲的反事实出生体重低于白人母亲。主要发现是,使用负性控制会导致更高的剂量反应曲线。在所述的因果假设下,负性控制和治疗效果之间的差距是因发病而未观察到的混杂程度。这些结果证实了临床假说,即贫困是影响婴儿出生体重的一个无法测量的混杂因素。未被观察到的贫困可能会严重误导无法解释贫困的观察性研究。实施细节见附录G。形式上,我们需要ZY | D,U,X,即。

28
kedemingshi 在职认证  发表于 2022-4-26 14:31:23
在考虑吸烟、收入和观察到的协变量后,教育与出生体重无关。产前护理是观察到的协变量,与吸烟和收入一起,调整了教育和出生体重之间的条件独立性。在形式上,我们要求WD,Z | U,X,即家庭规模独立于吸烟和教育,在对收入和观察到的协变量进行调节后。年龄和婚姻状况是观察到的协变量,与收入一起,证明了教育和家庭规模之间的条件独立性。020000400060000 10203040香烟每天吸烟出生体重(克)算法阴性对照治疗效果(a)白人母亲02000060000 10203040香烟每天吸烟出生体重(克)算法阴性对照治疗效果(b)黑人母亲图4:吸烟效果02000060000 10203040香烟每天吸烟出生体重(克)算法阴性对照治疗效果(c)拉美裔母亲图5:吸烟的影响意外的结果是剂量反应曲线为非单调;估计的反事实出生体重先增加后减少。这种现象普遍存在于亚群体中,不仅可以在阴性对照中看到,而且可以在治疗效果和原始数据中看到。我们基于数据和领域知识提出了两个猜想。这两种猜测都是数据生成过程可能违反假设3.1中因果关系假设的方式。首先,可能没有违反假设3.1中的干扰。在原始数据中,当香烟数量介于1和10之间时,它可能被四舍五入到10。事实上,图4和图5记录了10倍的大量点质量。

29
可人4 在职认证  发表于 2022-4-26 14:31:29
这种现象将违反无干扰,因为这意味着当真实治疗值d小于10时,我们观察到=10,Z=Z,但Y=Y(d,Z)。在这种情况下,对d<10的剂量反应的估计可能是不可靠的。第二,可能违反了假设3.1中的潜在可交换性。换句话说,这可能是另一个未观察到的混杂因素存在,并对报告吸烟少于10支的女性产生不成比例的影响。之前的研究表明,城乡分类、过度肥胖和精神压力是可能的混杂因素[Hobel等人,2008]。在我们的分析中,我们将城乡差异作为一个观察到的协变量,并通过消极控制来解释贫困,但我们没有在这一数据集中找到合理的压力消极控制。事实上,众所周知,心理社会压力很难测量,它可能会导致吸烟和低出生体重。我们留给未来的工作一个进一步的分析,调整由于收入和压力引起的未被察觉的混淆。7结论我提出了一系列新的非参数算法,用于学习负控制治疗效果。我的电子刺激器易于实现且一致。作为对负性对照文献的贡献,我提出了估算剂量-反应曲线和异质性治疗效果的方法,并假设治疗效果是平稳的。作为对核心方法文献的贡献,我展示了RKHS如何在存在未观察到的混淆的情况下很好地适用于因果推断。作为对母婴医学的贡献,我提出了一个工具包,可以从医疗记录中预测孕妇的剂量反应曲线,尽管未观察到混淆。

30
kedemingshi 在职认证  发表于 2022-4-26 14:31:35
我的结果表明,RKHS方法可能是流行病学和机器学习之间的有效桥梁。基金的确认和披露我特别感谢Olivia Foley分享对实证应用至关重要的医学专业知识。我感谢阿尔贝托·阿巴迪、本·迪纳、安娜·米库什·伊娃、惠特尼·恩埃维、恩德瓦西里斯·塞尔卡尼斯的评论。我感谢道格拉斯·阿蒙德、肯尼斯·蔡和大卫·李建立数据集,以及马蒂亚斯·卡塔尼奥在他们的许可下分享数据集。我非常感谢杰瑞·豪斯曼研究生学位论文奖学金的财政支持。参考文献[Abadie,2005]Abadie,A.(2005)。差估计中的半参数差。《经济研究回顾》,72(1):1-19。[Abrevay a et al.,2015]Abrevaya,J.,Hsu,Y.-C.,和Lieli,R.P.(2015)。估计条件平均治疗效果。商业与经济统计杂志,33(4):485-505。[Almond等人,2005]Almond,D.,Chay,K.Y.,和Lee,D.S.(2005)。低出生体重的代价。《经济学期刊》,120(3):1031-1083。[Angrist等人,1996]Angrist,J.D.,Imbens,G.W.,an D Rubin,D.B.(1996)。使用工具变量识别因果效应。《美国统计协会杂志》,91(434):444-455。[Athey and Imben s,2006]Athey,s.and d Imben s,G.W.(2006)。差异模型中非线性差异的识别和推理。欧共体经济统计,74(2):431-497。[Berkson,1958]Berkson,J.(1958)。吸烟与肺癌:最近两篇报道中的一些观察结果。《美国统计协会杂志》,53(281):28-38。[Berlinet and Thomas Agna n,2011]Berlinet,A.and Thomas Agn,C.(2011)。概率统计中的再生核希尔伯特空间。斯普林格科学与商业媒体。[Caponnetto and De Vito,2007]Caponn etto,A.和De Vito,E.(2007)。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-27 23:42