楼主: 何人来此
1974 41

[量化金融] 协变量中带有Berkson误差的回归——一种非参数方法 [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
64.8012
学术水平
1 点
热心指数
6 点
信用等级
0 点
经验
24593 点
帖子
4128
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
何人来此 在职认证  发表于 2022-4-29 17:12:36 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Regressions with Berkson errors in covariates - A nonparametric approach》
---
作者:
Susanne M. Schennach
---
最新提交年份:
2013
---
英文摘要:
  This paper establishes that so-called instrumental variables enable the identification and the estimation of a fully nonparametric regression model with Berkson-type measurement error in the regressors. An estimator is proposed and proven to be consistent. Its practical performance and feasibility are investigated via Monte Carlo simulations as well as through an epidemiological application investigating the effect of particulate air pollution on respiratory health. These examples illustrate that Berkson errors can clearly not be neglected in nonlinear regression models and that the proposed method represents an effective remedy.
---
中文摘要:
本文证明了所谓的工具变量能够识别和估计具有Berkson型测量误差的全非参数回归模型。提出并证明了一个估计量是一致的。通过蒙特卡罗模拟和流行病学应用调查了颗粒物空气污染对呼吸健康的影响,研究了其实际性能和可行性。这些例子说明,在非线性回归模型中,Berkson误差显然是不可忽视的,并且所提出的方法是一种有效的补救方法。
---
分类信息:

一级分类:Mathematics        数学
二级分类:Statistics Theory        统计理论
分类描述:Applied, computational and theoretical statistics: e.g. statistical inference, regression, time series, multivariate analysis, data analysis, Markov chain Monte Carlo, design of experiments, case studies
应用统计、计算统计和理论统计:例如统计推断、回归、时间序列、多元分析、数据分析、马尔可夫链蒙特卡罗、实验设计、案例研究
--
一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--
一级分类:Statistics        统计学
二级分类:Statistics Theory        统计理论
分类描述:stat.TH is an alias for math.ST. Asymptotics, Bayesian Inference, Decision Theory, Estimation, Foundations, Inference, Testing.
Stat.Th是Math.St的别名。渐近,贝叶斯推论,决策理论,估计,基础,推论,检验。
--

---
PDF下载:
--> Regressions_with_Berkson_errors_in_covariates_-_A_nonparametric_approach.pdf (655.95 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Berk 协变量 非参数 son Ber

沙发
何人来此 在职认证  发表于 2022-4-29 17:12:43
《统计年鉴2013》,第41卷,第3期,1642-1668DOI:10.1214/13-AOS1122cSusanne M.SchennachBrown大学数理统计研究所,2013年,带有BERKSON误差的非变量回归——一种非参数方法。本文建立了所谓的工具变量,能够识别和估计带有BERKSON型测量误差的完全非参数回归模型。提出并证明了一个估计量是一致的。通过蒙特卡罗模拟和流行病学应用调查了颗粒空气污染对呼吸健康的影响,研究了其实际性能和可行性。这些例子表明,在非线性回归模型中,Berkson误差显然不能被忽略,并且提出的方法代表了一种有效的补救方法。1.导言。许多统计数据集涉及协变量X,它们是真实的未观测到的对应变量X的错误版本*. 然而,测量误差通常不符合经典误差或str StructureX=X*+ X与X独立于X*. 事实上,一种常见的情况是正位情况,即X*= X+十、*具有十、*与X无关,这种情况通常被称为Berkson测量误差[Berkson(1950),Wang(2004),Carroll等人(2006)]。

藤椅
kedemingshi 在职认证  发表于 2022-4-29 17:12:47
一个典型的例子是一项流行病学研究,其中一个人的真实接触X*对某些污染物而言,没有观察到,但可以得到的是个体生活区域内该污染物的平均浓度X。单个特定的X*在区域平均值X周围随机波动,导致Berkson误差。不幸的是,处理Berkson测量误差数据的现有方法[例如,Delaigle、Hall和Qiu(2006)、Carroll、Delaigle和Hall(2007)]需要已知测量误差的分布,或在2012年8月收到;2013年4月修订。部分由NSF资助SES-0752699和SES-1156347,以及德克萨斯大学在资助SES-070003下提供的TeraGrid计算机资源提供支持。AMS 2000学科分类。初级62G08;中学62H99。关键词和短语。Berkson测量误差,变量误差,仪器变量,非参数推理,非参数极大似然。这是数理统计学会在《统计年鉴》2013年第41卷第3期1642-1668中发表的原始文章的电子版。这本重印本与原版的插图和排版细节不同。2 S.M.Schennache可能通过验证数据进行估计,这些数据可能成本高昂、难以收集或不可能收集。(在经典测量误差问题中,可以通过Kotlarski类型等式[Schennach(2004),Li and Vuong(1998)]从重复测量中识别误差分布。)。

板凳
kedemingshi 在职认证  发表于 2022-4-29 17:12:51
然而,对于Berkson型测量误差而言,此类结果尚不存在。)放松测量误差分布完全已知的假设的一种流行方法是,在假设该解是唯一的情况下,在变量分布和它们之间的关系中考虑一些可调参数,并求解f或最能反映观测变量各种条件矩的参数值。这种方法特别适用于多项式规格[Huwang和Huang(2000)],最近还适用于非常广泛的参数模型[Wang(20042007)]。本文超越了这一点,提供了一个正式的识别结果和一个通用的非参数回归方法,该方法在存在Berkson误差的情况下是一致的,无需事先知道测量误差的分布。相反,该方法依赖于所谓工具变量的可用性[例如,参见Carroll et al.(2006)第6章]来恢复利益关系。例如,在本文所考虑的颗粒物污染对呼吸健康影响的流行病学研究中,合适的仪器可以包括(i)污染水平的个体水平测量,甚至可能存在偏差和错误污染,或(ii)已知受污染影响的疾病以外的疾病的发病率。我们的估计方法基本上是通过用一个固定序列(或一个灵活的函数形式)来表示模型中的每个未知函数,并通过数值求解最适合观测数据的参数值。尽管这种方法很容易建议和实施,但正式确定这种方法在总体上是有效的,这是一项具有挑战性的任务。

报纸
可人4 在职认证  发表于 2022-4-29 17:12:54
首先,无法保证解(即,最符合可观测数据分布的参数值)是唯一的。第二,在存在大量未知参数的情况下,估计结果与样本量一致,这是一个充满收敛性问题的问题。假设的级数能渐近地表示解吗?参数空间是否太大,无法获得一致性?噪声是否与估计越来越多的受控参数有关?我们对这些问题的解决方案是双重的。首先,我们通过正式建立识别条件来瞄准最困难的障碍,在此条件下,模型的回归函数和所有未观测变量的分布由可观测变量的分布唯一确定。我们解决Berkson测量误差问题的第二个重要方面是利用关于非参数筛估计的广泛而成熟的文献[例如,Grenander(1981),Gallant and Berkson ERRORS 3Nychka(1987),Shen(1997)],以正式解决非参数未知数通过带有数字的tru-ncated级数表示时出现的潜在收敛问题随着样本量的增加而增加的术语。这些理论发现得到了一项模拟研究的支持,该方法的有用性通过一个流行病学应用程序来说明颗粒物污染对呼吸健康的影响。2.模型和框架。我们考虑一个回归模型,它的一般形式为g(X)*) + Y、 (2.1)X*= X+十、*,(2.2)Z=h(X*) + Z、 (2.3)其中函数g(·)是Y、观察到的结果变量和X之间的(未知)利益关系*, 未被观察到的真正的回归者这是一种干扰。关于X的信息*仅以受错误影响的可观察代理X的形式提供十、*.

地板
kedemingshi 在职认证  发表于 2022-4-29 17:12:58
方程式(2.3)假设与X相关的仪器Z可用*通过未知函数h(·)和扰动Z.OUR的目标是非参数地估计(2.1)中的函数g(·),而不假设测量误差的分布十、*这是众所周知的。[作为副产品,我们还将获得h(·)和所有未观测变量的联合分布。]为此,我们需要以下假设,这些假设在关注具有测量误差的非线性模型的文献中非常常见[e.g.,Carroll et al.(2006),Wang(2004),Hausman et al.(1991),Fan and Truong(1993),Li(2002),Lewbel(1996)]。假设2.1。X是随机变量,十、*, YZ是相互独立的。注:假设2.1中的th表示通常提出的“替代假设”fY | X,X*(y | x,x)*) = fY | X*(y | x)*), 从以下条件密度之间的等式序列可以看出:fY | X,X* (y | x,x)*) =FY | X,X*(y)-g(x)*)|x、 x*) = FY|十、*,X(y)-g(x)*)|十、*-x、 x)=fY(Y)-g(x)*)) =FY | X* (y)-g(x)*)|十、*) = fY | X* (y | x)*).假设2.2。随机变量十、*, YZ居中(即模型的限制)十、*通过十、*+ 对于一些非零常数c,同样对于Y和Z这包括零均值、零模式或零中值,例如)。由于我们的方法依赖于仪器Z的可用性来实现识别,因此在常见环境下提供合适仪器的实用示例是很有启发性的。尽管工具变量4 S.M.Schennach的使用在计量经济学计量误差文献中历史上更为普遍[Hausman等人(1991年)、Hausm-an、Newey and Powell(1995年)、Newey(2001年)、Schennach(2007年)],但工具对统计文献的兴趣越来越大,尤其是在测量恐怖问题的背景下[参见Carrollet等人的第6章“工具变量”。

7
能者818 在职认证  发表于 2022-4-29 17:13:02
(2006)和大量参考文献[1]。请注意,仪器方程(2.3)完全类似于(2.1),即生成主要因变量的方程。因此,仪器只是X引起的另一个可观察的“效应”*通过一般的非线性关系h(·)。让我们考虑几个例子,这些例子受到卡罗尔等人(2006年)、王(2004年)和希斯洛普(2001年)的一些案例研究的启发。例2.1。流行病学研究。在这些研究中,因变量Y通常是一种疾病或状况真实性的度量,而回归变量X*是指某人在未被观察到的情况下接触到某种污染物。然而,观察到个体生活区域内该污染物的平均浓度X。X上的错误是Berkson类型,因为个别特定*通常在区域平均值X周围随机波动。在此设置中,可使用多种看似合理的仪器:(1)对患者家中的污染物浓度进行测量(这些将是被经典误差污染的误差,因为给定时间的浓度会在与健康影响相关的时间平均浓度附近波动)。由于(2.3)中的函数h(·)引入的灵活性,这些测量值甚至可以被忽略。因此,它们可以用一种廉价的方法制作(这种方法可能会产生噪音,甚至没有很好的校准),从而在个人层面上使用起来非常实用。

8
nandehutu2022 在职认证  发表于 2022-4-29 17:13:06
因此,有可能结合(i)准确但昂贵的非特定区域平均值(X)和(ii)便宜且不准确的特定区域测量值(Z),以获得一致的估计值。(2) 另一个看似合理的工具可能是衡量已知由污染物引起的其他疾病或状况的严重程度。这是由污染物引起的,这一事实引入了一个与方程式(2.3)一致的误差结构。由于该物质而产生的其他可测量影响(例如,唾液或尿液中是否存在该物质的检测结果)也可作为仪器。很明显,这些测量值不是暴露的单位,但乐趣h(·)可以解释这一点。例2.2。实验研究。研究人员可能希望研究影响Y(例如,某些化学品的产生)如何与某些施加的外部条件X(例如,ovenBERKSON误差5或反应堆温度e)相关,但实际条件X*感兴趣的样本所经历的温度可能会随机偏离设定的条件(例如,温度可能不完全均匀)。在这种情况下,仪器可能是(i)另一种已知由X引起的“影响”(例如,另一种化学物质的量)*或(ii)X的测量*这对于感兴趣的样品来说是特别的,但可能非常嘈杂,甚至有偏差(例如,在实验完成且样品部分冷却后,温度测量可能更容易进行)。例2.3。

9
何人来此 在职认证  发表于 2022-4-29 17:13:09
自我报告的数据。Hyslop和Imbens(2001)认为,报告数据的个人(例如,他们的食物摄入量或运动习惯)有时意识到他们对X的估计存在不确定性*因此,报告所有合理估计值的平均值与他们可用的信息一致,从而导致Berkson类型的错误,因为个体试图使其预测错误独立于报告。在这种情况下,仪器Z可能是另一个与X相关的观察结果变量Z*.3.识别。我们现在正式陈述了在仪器的帮助下可以识别Berkson测量误差模型的条件。让Y,X,X*Z表示随机变量Y,X,X的分布的支撑*和Z。我们考虑Y,X,X*andZ将联合连续分布(与Y)Rny,XRnx,X*RNX和Z 新西兰RNZ≥nx)。因此,我们假设如下。假设3.1。随机变量Y,X,X*, Z在Y×X×X上允许一个关于勒贝格测度的有界节理密度*x Z.所有边际密度和条件密度也被定义和限定。我们使用符号fA(a)和fA | B(a | B)分别表示随机变量a的密度和a条件于B的密度。小写字母表示相应大写随机变量的特定值。接下来,正如在变量模型中对错误的许多处理[Carroll等人(2006年)、Fan and Truong(1993年)、Li and Vuong(1998年)、Li(2002年)、Schennach(2004年、2007年)],我们需要各种特征函数来消除。我们还对模型的两个回归函数设置了正则性约束。假设3.2。总之ζ∈ Rnz,E[exp(iζ·Z) ]6=0,且对于所有ξ∈Rnx,E[exp(iξ)·十、*)] 6=0(其中=√-1).假设3.3。g:X*7.→ Y和h:X*7.→ Z是一对一的(但不一定在上面)。

10
何人来此 在职认证  发表于 2022-4-29 17:13:12
M.Schennachasumpt ion 3.4。h是连续的。假设3.3在X*维度大于或等于Y(或Z)的维度。幸运的是,通常可以通过将Y(和Z)定义为一个向量来消除这个问题,该向量除了包含感兴趣的结果外,还包含辅助变量,以便允许Y(和Z)有足够的变化来满足假设3。3.这些额外变量本身不必是利益关系的一部分,但不受X的影响*是有办法的。从这个意义上说,这种辅助变量也可以是一种“工具”我们的主要识别结果如下所示。(请注意,该定理也适用于对观测变量W进行条件处理,因此可以直接包括额外的、正确测量的回归。)定理3.1。在假设下。1–3.4,给定真实观测的条件密度fY,Z | X,解(g,h,fZ、 fY、 f十、*) 对于函数方程fy,Z | X(y,Z | X)=ZfZ(Z)- h(x)*))FY(Y)- g(x)*))F十、*(十)*-x) dx*(3.1)为了所有人∈ Y、 x∈ 十、 z∈Z是唯一的(在零概率测度集上的差异)。解(g,h,f)的相似唯一性结果成立Z、 fY、 f十、*, fX)tofY,Z,X(y,Z,X)(3.2)=fX(X)ZfZ(Z)-h(x)*))FY(Y)-g(x)*))F十、*(十)*-x) dx*.建立这一结果需要的技术与现有的Berkson误差模型处理方法截然不同,例如线性算子的谱分解[Carrasco、Florens和Renault(2005)的综述],这些技术正在成为普遍存在的反褶积技术的有力替代品,通常应用于经典测量误差问题。证据可在附录中找到,概述如下。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-7 23:18