楼主: 何人来此
1980 41

[量化金融] 协变量中带有Berkson误差的回归——一种非参数方法 [推广有奖]

21
大多数88 在职认证  发表于 2022-4-29 17:13:51
14 S.M.SCHENNACHthe误差的标准差十、*几乎与“信号”X中的一个相同,因此这个估计问题非常困难。分配Y isa逻辑比例为0.125,而Z是一个t分布,6个自由度按0.25的比例缩放。回归函数的形式为:*) = |十、*|十、*,(5.1)是完全可多次微分的,因此限制了其系列估计在测量误差稳健估计中的收敛速度(原始估计受影响较小,因为它会“看到”该函数的平滑变化)。仪器方程h是严格凸的,因此会加剧许多非参数估值器的偏差,h(x*) = ln(1+exp(2x*)).如上所述,总共产生了100个独立样本,每个样本包含500个观察结果,并输入我们的估计器。出于估计目的,函数g(·)和h(·)都用多项式表示,而十、*, Y和Z由高斯乘以多项式表示[遵循Gallant和Nychka(1987),他们确定这些选择满足适当的密度条件]。高斯分布以原点为中心,但其宽度作为待估计的参数。请注意,所考虑的函数形式并不是简单地嵌套在截断筛近似所跨越的空间中。这是一个有意的选择,目的是正确地解释问题的非参数性质(研究人员从未幸运地选择一个完全符合真实模型的截断筛)。方程(3.1)中的积分通过将积分离散为范围内的和来进行数值计算[-3,3]的间隔为0.05。

22
mingdashike22 在职认证  发表于 2022-4-29 17:13:55
忽略测量误差的朴素最小二乘估计(即Y对X和Z对X的最小二乘回归)被用作g和h函数的数字筛优化的起点,而相应残差的方差被用于构造初始高斯猜测,以优化所有误差分布。利用Nelder和Mead(1965)提出的单纯形法(也称为“变形虫”)对V=十、*, YZ和β(Km)m,m=g,h同时进行。估计密度和回归函数分别位于定义4中给定形式的集合F和G中的约束。1和4.2由筛分系数θ(KV)V、k和β(Km)m、kin(4.2)和(4.1)的大小范围表示。这种约束很容易在单纯形优化方法中施加:Berkson误差15会导致违反边界的参数变化被简单地拒绝(有效地分配一个“有限”值)——单纯形优化方法很容易适应目标函数中的极端行为,因为它不依赖于竞争。然而,我们发现,这些约束在实践中很少具有约束力,除非展开式中的项数很大[Gallantand Nychka(1987)报告了类似的观察结果]。通过我们的数据驱动的术语数选择方法,Kv的如此大的值往往会自然地被排除在外。为了选择给定样本的近似序列中的项数,我们使用第4节中描述的“引导交叉验证”方法,使用分数p=1/8和100个引导复制。

23
mingdashike22 在职认证  发表于 2022-4-29 17:13:59
序列报告中自由参数(不计算由零均值和单位面积约束唯一确定的参数)数量的相对值十、*, FY、 fZeach跨越集合{1,2,3,4},而对于g,h每个跨越集合{4,5,6,7}。最佳参数数(在复制过程中保持不变)为f十、*: 3.FY:3;FZ:3;g:6;h:6。图1总结了这些模拟的结果,其中还显示了忽略测量误差(即Y对X和Z对X的最小二乘回归)的朴素非参数系列最小二乘估值器,该估值器具有相同数量的奇异项,用于比较。该方法的可靠性可以通过注意复制测量的中位数与真实模型的匹配程度来评估,而忽略测量误差的朴素估计量或更具偏见,即使忽略了真正的回归函数几乎是在中间部分的事实,反而产生了一个非常误导的线性形状,尽管真正的模型具有强烈的非线性。事实上,与提出的估计器不同,朴素估计器的偏差非常大,基于它的任何类型的假设都会显示出完全误导性的置信水平:真实模型曲线(对于g和h)几乎总是位于估计器分布的95%或5%百分位之外。总的来说,在合理的样本量为500时,所提出的测量误差稳健估计器表现出低可变性和低偏差。在有限样本中,偏差不完全为零,因为我们的估计器是样本平均数的非线性函数,并且在有限样本中,筛子近似必须具有有限的精度。然而,我们的估计器在存在如此大的测量误差的情况下表现如此出色,这一事实有力地表明了它的实用性。

24
nandehutu2022 在职认证  发表于 2022-4-29 17:14:03
这种行为并不特定于该模型,我们已经在其他模拟设置中测试了该方法;参见Schennach(2013)。应用许多研究试图量化空气污染对呼吸健康的影响[e.g.,Dockery等人(1993)]。具体而言,人们越来越担心小颗粒物质16 S.M.SCHENNACHFig的影响。1.与忽略测量误差存在的“朴素”非参数多项式序列最小二乘估值器相比,所提出的测量误差稳健估值器实际性能的仿真研究。在每个图中,100次重复模拟的估计器的点态90%置信区间显示为误差条。[Pope等人(1995年),Samet等人(2000年)]。这类研究的一个关键困难在于,空气质量监测器不一定位于受空气污染影响的对象附近,这意味着主要的利益回归因素被误判。伯克森:我们对这个问题的处理方法依赖于美国环境保护署(EPA)和疾病控制中心(CDC)收集的非常全面的全国性数据。污染水平取自2005年EPAS监测值报告标准空气污染物数据库。EPAs数据提供了美国各地不同监测站的颗粒物水平的点测量值(我们关注的是所谓的PM2.5颗粒物的第95百分位水平,直径小于2.5微米的颗粒物),从中我们构建了州平均污染水平(我们的X变量,以每米微克颗粒物测量)。我们不知道,因为污染数据只适用于一小部分县,即使有,其测量误差的性质也是复杂的(可能是经典误差和伯克森误差的混合)。

25
大多数88 在职认证  发表于 2022-4-29 17:14:07
通过构建州级平均值,我们将监测测量中的随机性平均化,同时保持个体暴露中的随机性不变,从而获得每个州的个体所经历的污染水平的有效Berkson误差污染估计,无论他们是否生活在有监测站的国家。每个人都面临着与州平均水平相等的暴露,加上由于其精确的地理位置和生活方式而产生的未知随机噪音。健康数据来自2005年公开的“疾控中心奇迹”数据库,题为“死亡的根本原因”。为了测量呼吸系统健康,我们使用死亡原因的数据,其优点是非常全面和准确(需要医学专业人员收集数据,不依赖自愿调查)。对数据完整性的一个限制是,对于一些县,数据被CDC“禁止”(出于隐私原因)或标记为“不可靠”,因此从我们的样本中省略。我们感兴趣的因变量(Y)是因“慢性低呼吸疾病”(如哮喘、支气管炎、肺气肿)导致的死亡率(每10000人),而我们的工具(Z)是因“外部因素导致的肺部疾病”(如有机或无机粉尘导致的尘肺病、煤工尘肺)导致的死亡率(每10000人)。其基本原理是,作为一种工具,使用一个显然会受到污染水平影响的变量。该变量间接提供了有关真实污染水平的信息,因此可以更准确地评估污染(如果有)对相关变量的影响。我们使用县级死亡原因数据,因为这些数据随时可用,无需担心患者隐私问题。

26
何人来此 在职认证  发表于 2022-4-29 17:14:11
此外,CDC提供了经年龄校正的死亡率,从而校正了县与县之间的人口差异。我们通过县匹配死亡率数据和州匹配污染数据来构建样本,在多达51个州的多个县进行了305次观察。我们的方法的一个局限性是,它无法控制其他可能的混淆效应,例如,如果吸烟者的比例在工业城市和工业城市之间存在差异。然而,这种限制在此类研究中很常见[如Dockery等人(1993年)所述]。我们使用与模拟示例中相同类型的筛子和计算方法,并使用第4节中描述的“bootstrapcross验证”方法选择术语的数量,分数p=1/8和100个bootstrap复制。代表f的系列中自由参数数的试验值十、*, FY、 fZ平移范围{1,2,3},而序列r中表示g和h的项数的三个左值跨越范围{2,3,4}(如果将任何一个kV增加到该范围之外,则会导致明显更差的性能)。自由参数(不计算由零均值和单位面积约束唯一确定的参数)的最佳数量为f十、*: 2.FY:3;FZ:1;g:4;h:3。非参数估计值周围90%的置信区间是通过100次复制的标准自举法获得的[参见Gin\'e and Zinn(1990)中证明其使用的一般条件]。结果如图2所示。一些观察结果是正确的。首先,我们的测量误差鲁棒估计器完全能够检测到clearFig。2.将建议的估计器应用于流行病学示例(变量和估计函数的描述见正文)。

27
能者818 在职认证  发表于 2022-4-29 17:14:14
在每个图中,估计器显示为实线,而误差条表示点态90%置信区间。在(b)中,“朴素”估计是一种忽略测量误差的非参数多项式级数最小二乘估计。(a)中的估计器显示在图(b)上,用于比较。Y和X之间的BERKSON单调关系*在Z和X之间*尽管使用了完全非参数的方法,但仍具有有用的置信区间。第二,尽管测量误差的分布很难估计(由宽置信区间反映),但这种不确定性对主要利益函数的影响[g(x*)] 幸运的是,它非常有限。90%的置信区间表明,大量测量误差的存在与数据一致:测量误差约为10ug/m,而观察到的X大致在10到40ug/m之间。第三,测量误差的分布Y具有不可忽略的不对称性,因此说明了仅假设所有误差项为正态的方法的缺点。相比之下,这些数据的分布十、*和Z显然非常接近对称(这是正式模型选择程序的结论,而不是假设)。出于比较目的,我们还使用传统的最小二乘法(从而排除测量误差)和多项式规格,对误测回归器X上的因变量(Y或Z)进行简单回归,其项数与我们的Berkson模型相同。这项研究的第一个令人不安的观察结果[见图2(b)]是对g(x)的天真估计*)不是单调的,尽管在其意外下降的区域,置信区间并不排除恒定响应。

28
何人来此 在职认证  发表于 2022-4-29 17:14:17
其次,与直觉相反的是,朴素估计量的置信区间有时大于稳健估计量的相应区间。这是一个事实的结果,即校正forBerkson误差相当于一个类似于卷积的操作(而不是像经典测量误差那样的反卷积)。与反褶积不同,卷积是一种降噪操作,有效地将Y的变化平均在X的宽范围内,从而在给定X的特定值的情况下得出Y的预期值。这种现象还可能导致测量误差稳健估计的响应行为更合理(即,增加)。最后,测量误差稳健回归函数通常位于或超过原始估计分布的95%或5%;参见图2(b)。这意味着任何统计测试的水平都会有严重的偏差。例如,朴素估计量的置信区间将拒绝我们对g(x)的最佳估计*)通过测量误差或rob ust p程序获得。总之,这个应用程序示例说明,忽略Berkson错误在非线性环境中可能会造成严重误导。不仅估计响应的形状受到了相当大的影响,而且基于测量误差盲法的统计参考也会有很大的偏差。这个应用实例还表明,我们的完全非参数测量误差鲁棒性方法在实际数据集中通常可用的样本量下运行良好,并且假定了测量误差分布的知识。20 S.M.Schennachapendix:PROOFSLet Lb(D)带D 对于某些情形,L(D)中所有有界函数的s集都具有通常的形式。

29
何人来此 在职认证  发表于 2022-4-29 17:14:21
此外,每当我们在Lb(D)中陈述乐趣之间的质量时,我们的意思是它们的差异在形式中为零。我们提供定理1的两个证明。第一个假设由一位专家提出,它依赖于(i)Z和X的附加假设*具有相同的尺寸和(ii)h及其逆是可区分的。假设(i)进行消费。3不太可能成立,但可以在某种程度上直接应用Hu和Schennach(2008)中的定理1。第二个证明放松了这些假设。它借鉴了Hu and Schennach(2008)的一些算子技术,但需要对方法进行相当大的修改,我们在此重点讨论了不同的证明方面。证明理论3。1(简单的特殊情况)。让Huand Schennach(2008)中的变量用相应的up percase字母和波浪号表示,并进行以下赋值:(~X)*,~X,~Y,~Z)=(h(X*), Z、 Y,X)。我们现在验证Hu和Schennach(2008)中定理1的5个假设。为了验证假设1,我们观察到*,~X、~Y、~Z)和(X)*, Z、 Y,X)通过:fX关联*,~X,~Y,~Z(~X*, ~x,~y,~z)=fX*,Z、 Y,X(h)-1(~x)*),~x,~y,~z)|H-1(~x)*)/~x*′| 在哪里*,Z、 假设3.1中的Y,Xexists和h-1(~x)*) 假设存在。3.雅可比矩阵H-1(~x)*)/~x*′仅当X*和Z(因此X*) 具有相同的维数,并且在h及其逆可微的假设下是有限的和非奇异的。

30
mingdashike22 在职认证  发表于 2022-4-29 17:14:25
类似的论点也可用于边缘词和条件分布。为了验证假设2,我们注意到,我们的模型可以用平铺变量表示为Y=Y=g(h-1(~X)*)) + Y、 (A.1)~Z=X=h-1(~X)*) -十、*,(A.2)~X=Z=~X*+ Z.(A.3)为了验证假设2(i),我们写下了*,~Z(~y |x,~x*, ~z)=fY | z,X*,X(~y |X,h)-1(~x)*), ~z)=fY|Z十、*,X(~y)-g(h)-1(~x)*))|~x- ~x*, H-1(~x)*) - ~z,~z)=fY(~Y)-g(h)-1(~x)*)))= fY |X*(~y |x)*) = f~Y |X*(~y |x)*),在这里,我们依次使用了(i)等式(~X)*,~X,~Y,~Z)=(h(X*), Z、 Y,X)以及条件变量中变量的变化不会引入雅可比项的事实,(ii)条件在Z,X上的事实*, X相当于条件反射Z十、*, 十、 (三)反倾销2。1,(iv)两者之间的关系Y和Y通过(A.1)和(v)等式Y=~Y。为了验证假设2(ii),我们类似地写下了efX | X*,~Z(~x |x)*, ~z)=fZ | X*,X(~X | h)-1(~x)*), ~z)=fZ|十、*,X(~X)- ~x*|H-1(~x)*) - ~z,~z)=fZ(~x)- ~x*) = fZ |X*(|x |x)*) = fX | X*(|x |x)*).假设3由假设3暗示。1,2.1,3.2,3.3,3.4和Lemma。下文1。假设4要求fY | X*(~y |x)*) 6=fY | X*(~y |x)*) 对于x*6=~x*. 这可以通过以下方式进行验证:fY | X*(~y |x)*) = FY |X*()-g(h)-1(~x)*))|~x*)= FY(~Y)- g(h)-1(~x)*)))6=fY(~Y)- g(h)-1(~x)*))) = f~Y |X*(~y |x)*)通过引用(i)以下定义:(二)独立性Y来自X*(因此X*), (iii)x*6=~x*意味着g(h)-1(~x)*)) 6=g(h)-1(~x)*))因为假设g(·)和h(·)是一对一的。3,g(h)也是-1(·)).通过等式(A.3),假设5基本满足。Hu和Schennach(2008)中的定理1允许我们得出(h(X)的联合分布*), 十、 Y,Z)是确定的。但是,为了确定(X)的分布*, 十、 Y,Z),我们需要识别h(·)。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-10 21:39