楼主: nandehutu2022
2005 68

[经济学] 一个自动有限样本稳健性度量:什么时候可以稍微降低 [推广有奖]

31
nandehutu2022 在职认证  发表于 2022-4-24 17:35:15
因此,对于任何固定的α,总是存在一个足够大的N,使得统计上的不显著性可以通过减少最多α比例的数据来削弱。相比之下,如果φ(^θ,~1)收敛到一个距离0.3.2.3影响函数非常远的值,那么统计意义可能是稳健的。我们接下来回顾影响函数,并给出其特定的Z估计形式。我们建立了影响分数和经验影响函数之间的关系。我们用这些联系来进一步证明噪声和极限分布之间的关系√N^φ。最后,我们使用影响函数对比AMIP稳健性和粗差稳健性,并确定异常值主要通过噪声而不是形状影响AMIP稳健性。(a) 写一个统计数据作为经验分布的函数。在定义影响函数之前,我们设置了一些有用的符号。假设我们观察到IID数据,d,dN。每个点都是从数据分布F中提取的∞(·)=p(d)≤ ·), 其中的不平等可能是多维的。对于一般分布F,让T表示分布的一个函数:T(F)。一个例子是样本均值;对于一般分布F,设Tmean(F)=RddF(~d)。ThenTmean(F)∞) = E[d]是人口平均数。如果我们让^FN表示经验分布函数^FN(·)=NPNn=1I(·)≤ dn),然后Tmean(^FN)=NPNn=1代表样本平均值。现在考虑Z-估计量。将TZ(F)定义为满足Zg(TZ(F),~d)dF(~d)=0的数量。(19) 例如,见汉佩尔(1986年,第4.2c节,定义5)。如果我们在公式19中为F插入^FN(并将两边乘以N),我们从公式1中恢复Z-估计量估计方程,其解为^θ=TZ(^FN)。同样,设^fw为加权N的分布函数-1wnat数据点dn。在公式19中插入^fwf,得到公式19中的估算公式。

32
何人来此 在职认证  发表于 2022-4-24 17:35:21
3,对于加权Z-估计量,解^θ(~w)=TZ(^Fw)。最后,我们可以通过应用光滑函数φ来定义一个新的函数Tφ(F),它选择了我们感兴趣的数量,TZ(F):Tφ(F)=φ(TZ(F),~1)。(b) 影响函数。影响函数IF(d;T,F)测量了将点d处的微小质量添加到某个基准或参考数据分布F中对统计量T的影响(Reeds,1976;Hampel,1986)。让δdbe概率在d处用一个大小为1的原子来测量。如果(d;T,F):=lim&0T(δd+(1)- )F)- T(F). (20) 影响函数是根据普通的单变量导数定义的,可以使用标准的单变量演算计算(作为d和F的函数)。特别是,我们的兴趣量具有以下影响函数:IF(d;Tφ,F)=-φ(θ,~1)θT^θ(F)ZG(θ,~d)θT^θ(F)dF(~d)-1G(^θ(F),d)。(21)将公式21与ψnin公式的定义进行比较。7和10,我们可以看到,形式上,NψN=IF(dn;Tφ,^FN)。(22)等式22不是巧合。要看到这一点,请注意,可以表示为加权经验分布(上文^fw)的分布集正是集中在观测数据上的可能分布函数的子空间。所以导数ψn=nφ(θ(~w),~1)/ ~wn(式5)只是函数导数IF(dn;Tφ,^FN)的路径导数表示。与欧几里德空间中的普通微积分一样,我们也可以通过写出φ(θ,F)来考虑φ中的显式F依赖性。然而,允许这种程度的通用性,在Z-估计量的影响函数分析中显然是很繁重的,也不是典型的。为了简单起见,我们省略了这种依赖。N的因子用于将期望值重新写入单位值权重的和。我们将F=^fn应用的影响函数称为经验影响函数(Hampel,1986)。

33
可人4 在职认证  发表于 2022-4-24 17:35:26
我们得出结论,我们用来形成近似值的ψn是数据点SD,dN。因此,我们参考ψnas影响分数。(c) 影响分数之和为零。现在我们可以使用影响函数的标准性质来推断~ψ。例如,Pnn=1ψn=0这一事实来源于公式21,而^θ解出了公式1。(d) 噪声是对感兴趣数量的限制分布(影响函数版本)的标准偏差的估计。请注意,通过上面的影响函数展开,我们可以将平方噪声写为:。^σψ:=N~ψ=NNXn=1(NψN)=NNXn=1IF(dn;Tφ,^FN),(23)回想一下,我们在上面看到^σψ一致地估计了√N^φ,首先是OLS的特例(第3.1.2节,第(e)段),然后是一般的Z估计(第3.2.1节,第(b)段)。我们现在可以看到,这些结果本身就是影响函数与其相应函数的极限方差之间的以下众所周知的关系的特例:√NT(^FN)-T(F)∞)N0,EhIF(d;T,F∞)我, (24)前一显示中的预期是关于d的~ F∞(例如,见汉佩尔(1986年,等式2.1.8))。具体地说,如果我们能证明∑ψ,即∑ψ的概率极限,等于EIF(d;T,F)∞), 那么等式24就意味着√N(Tφ(^FN)- Tφ(F)∞))   N(0,σψ),正如我们在等式18中使用三明治协方差估计器所示。在我们的例子中,在标准假设下,一个人可以直接从等式中显示。7和10如果(dn;Tφ,^FN)p-→ IF(dn;Tφ,F)∞), 几乎可以肯定是英登。然后,可以将大数定律应用于等式23,得到所需的结果。(e) AMIP鲁棒性不同于粗差鲁棒性。

34
可人4 在职认证  发表于 2022-4-24 17:35:33
粗略地说,如果一个估计器的影响函数是无界的,则该估计器被认为对粗差不鲁棒(Huber,1981)。例如,OLS Z-估计器(第3.1节)产生的影响函数通常被认为对粗误差不稳健。当一个影响函数是无界的时,通过对单个数据点进行任意大的更改,可以在感兴趣的数量上产生任意大的更改。粗大误差稳健性的动机是,一些少量数据点可能来自与公式24任意不同的分布,尽管公式24可以提供有用的直觉,就像在我们的例子中一样,在任何特定问题中,直接证明渐近结果往往比通过本节的函数分析观点更容易,因为陈述公式24适用的精确和一般条件可能具有挑战性。例如,参见Ser fling(2009年,第6章)或Van der Vaart(2000年,第20章)中的讨论。模型的假定分布。相比之下,为了评估AMIP的稳健性,我们不会对数据点进行任意大的更改。我们只是删除数据点。如果某个特定的大小发生了变化,则该分析是AMIP非稳健的() 可以诱导,而不是任意大的变化。因此,无界影响函数(如第3.1节中的OLS)的问题可能是AMIP稳健的,如果/^σψ足够大。没有异常值的完美问题可以是非稳健的,如果/^σψ非常小。(f) 异常值通过噪声影响AMIP稳健性。对总体误差稳健性的考虑鼓励用户检查数据中的异常“异常值”;一旦剔除异常值或其影响减小,问题被认为是粗差稳健的。

35
kedemingshi 在职认证  发表于 2022-4-24 17:35:39
由于离群值与严重的数据分布有启发性的关联,人们可能认为离群值的影响会通过形状变量^Tα影响不确定性。然而,我们对第3.2.1节第(c)段的分析表明,粗差实际上减少了^Tα,从而使估值器对固定^σψ更加稳健。这一观察结果并不意味着严重错误会降低AMIP敏感性。相反,粗差通过噪声^σψ增加了AMIP敏感性。正如我们所看到的,对∑ψ的影响也会影响标准误差的计算。3.3近似值的准确性在第3.1.2节(f)段中,我们认为我们的近似值对于小α是精确的。现在我们把这个论点推广到一般情况。特别地,我们给出了充分的条件,在此条件下φlin(~w)为~w的小α提供了一个很好的近似φ(^θ(~w),~w)∈ Wα。我们的主要结果,定理1,在有限的样本中,其边界基本上是可计算的。此外,相应的界限也有望保持,概率接近1,即N→ ∞ 在标准假设下。3.3.1控制泰勒级数的残差我们在等式5中使用的线性近似是泰勒级数,因此其精度可以通过控制泰勒级数残差来控制。Giordano等人(2019b)陈述了当使用等式9中给出的导数时,一阶泰勒级数对^θ(~w)的逼近精确的条件。在φ的额外光滑性假设下,我们可以将这些结果推广到目前的等式5。由于泰勒级数展开式是用可观测的非渐近量表示的,因此产生的误差界在有限样本中完全成立,并且在原则上是可计算的。我们首先假设向量^θ(~w)的线性近似是精确的。假设3(Giordano等人。

36
kedemingshi 在职认证  发表于 2022-4-24 17:35:47
(2019b),假设1-4)。设Wα是权重向量的集合,其不超过bαnc零点,如等式2所示。假设存在一个紧域Ohmθ 所有~w都包含^θ(~w)∈ Wα,即1。对于所有θ∈ Ohmθ和所有n,θ7→ G(θ,dn)连续可微G(θ,dn)θTθ=:H(θ,dn)。对于所有θ∈ Ohmθ、 存在Cop<∞ 这样supθ∈OhmθNPNn=1H(θ,dn)op≤警察3.存在一个恒定的Cgh<∞ 这样的SUPθ∈Ohmθmax(NNXn=1kG(θ,dn)k,NNXn=1kH(θ,dn)k)≤ Cgh。4.存在一个θ和一个Lh<∞ 比如supθ:kθ-^θk≤θNNXn=1H(θ,dn)-H(^θ,dn)/θ -^θ≤ Lh。粗略地说,假设3说明估计方程是光滑的和非奇异的,样本平均值是一致有界的,估计方程的导数是Lipschitz。除了域名的大小Ohmθ、 假设3不依赖于Wα,也不依赖于任何渐近量;它只对手头的实际问题做出合理的假设。在假设3下,我们能够将Giordano et al.(2019b)的定理1应用于Wα,从而证明了对于所有Wα,线性逼近^θ(~W)的一致精度∈ Wα。为了将^θ(~w)的近似精度扩展到我们感兴趣的数量φ,自然需要对φ进行平滑假设,我们现在陈述了这一点。假设4。确定重新缩放的权重δn:=~wn/√N、 假设θδ7→φ(θ,√Nδ)具有连续的偏导数,在θ=^θ(~1)和~w=~1处计算的偏导数的k·k-范数由有限常数Cφ限定,且部分导数是k·k中的Lipschitz,且具有有限常数Lφ。现在我们可以陈述我们的主要精度定理。定理1。假设3和4成立。对于非常小的α,存在常数Cnd和C,根据假设3和4中给出的量定义,例如∈Wαφlin(~w)- φ(θ(~w),~w)≤ Cα和sup~w∈Wαφ(θ(~w),~w)-^φ≤ C√α.

37
kedemingshi 在职认证  发表于 2022-4-24 17:35:53
(25)当α很小时,我们期望α√α(例如,当α=0.01时,√α = 0.1 0.01),因此定理1指出,线性近似误差中的界比函数本身中的界收缩得更快,即α→ 0.定理1是一个有限的样本结果,正好适用于手头的问题。在所有其他条件相同的情况下,有限样本结果优于渐近结果。然而,由于在证明中使用了许多松散的界限,我们不期望常数在实践中有用。此外,Giordano等人(2019b)的定理1可能在理论上要求α小于1/N,这导致了一个空洞的陈述。改善这些缺点是未来工作的重要途径(例如Giordano等人(2019a);威尔逊等人(2020年)。但是,当大数定律适用于θ7时,观察这一点是有用的→ 千克(θ,·)和θ7→ kH(θ,·)k,极限函数也是非奇异的、有界的和Lipschitz的,那么我们可以期望假设3以高概率和有限常数N保持不变→ ∞.Giordano等人(2019b)的引理1中给出了这种渐近适用的必要条件的精确说明。3.3.2线性近似的局限性在我们在第4节的应用中检查的每种情况下,我们都会在没有移除集^Sα中的数据点的情况下手动重新运行分析;在这样做的过程中,我们发现近似值所建议的变化几乎总是在实践中实现的(第4.4节末尾给出并讨论了一个值得注意的例外)。然而,线性近似只是近似,关于线性近似潜在缺点的直觉通常适用于我们的近似。定理1的关键是小α意味着~w-~1很小,因此我们可以在~w中控制线性近似的误差,计算值为~1。

38
何人来此 在职认证  发表于 2022-4-24 17:35:59
相反地,人们不希望这种近似在大α和相应的大~w的情况下能很好地工作-~1、作为一个极端的例子,标准杆数席上的线性近似报告指出,没有一种可行的方法来进行特定的改变;i、 当^α*= NA(种子定义2)。这样的结果似乎意味着,无论删除多少数据点,估计器都不会改变多少, 这通常是荒谬的。然而,这样的结果应该被视为意味着我们将不得不移除大量的α数据点,而我们所基于的α是线性近似值*无效。^α的更准确解释*= NA是noWe注意到√α由简单但粗糙的Cauchy-Schwartz界确定(见引理2)。当随机变量kG(θ,dn)和kH(θ,dn)是一致可积的(参见范德瓦尔特(2000)第2.5节)时,可能会达到更严格的界限。小部分的点可以被移除以产生变化, 因为如果有这么小的比例,线性近似就会发现它。同样,在参数空间的边界附近,线性近似也不能很好地工作。例如,如果感兴趣的数量是一个方差,那么真参数被限制为正,但我们的线性近似不是。它可以使用无约束的重新参数化(例如,线性逼近对数方差而不是方差)来帮助线性化问题。

39
何人来此 在职认证  发表于 2022-4-24 17:36:05
然而,正如我们在第4.4节中所展示的,简单地变换到无约束空间仍然不能保证在原始约束空间中的边界附近产生精确的近似值。4.应用实验4。1俄勒冈州医疗补助实验在我们的第一个实验中,我们表明,即使是显示出轻微经典不确定性的实证分析,也可能对样本去除不到1%敏感。我们考虑俄勒冈医疗补助研究(芬克尔斯坦等人,2012),并关注健康结果。治疗效应的标准误差相对效应大小较小;与无效假设相反,大多数p值远低于0。01.然而,我们发现,对于大多数结果,移除不到1%的样本可以产生与全样本分析相反的显著结果。在一种情况下,去除少于0.05%的样本可能会改变结果的重要性。4.1.1背景和复制首先,我们为Finkelstein等人(2012)的分析和结果提供一些背景。2008年初,俄勒冈州在针对低收入成年人的医疗补助计划中开放了一个新登记的等待名单。然后,俄勒冈州ZF从9万名注册者中抽签,中签者可以与其任何家庭成员一起注册医疗补助。这一设置在家庭层面将患者随机分为治疗组和对照组。Finkelstein等人(2012年)的研究测量了治疗组接受医疗补助一年后的结果。到试验结束时,约25%的治疗组确实有医疗补助覆盖。

40
nandehutu2022 在职认证  发表于 2022-4-24 17:36:11
主要分析将治疗分配作为治疗本身(“治疗意向”或ITT分析)进行调查,并将治疗分配作为保险覆盖率的工具变量(“当地平均治疗效果”或后期分析)。我们关注的是赢得医疗补助彩票的健康结果,它出现在Finkelstein等人(2012)表9的B组中。对于结果类型J,家庭h中的个人i,这些结果中的每一个都用YiHJ表示。我们可以访问的数据样本包括调查应答者(N=23741);一些回复者来自同一个家庭。可变彩票等于家庭中了医疗补助彩票,否则等于零。所有回归都使用一组协变量,包括家庭规模固定效应、调查波浪固定效应以及两者之间的相互作用。所有回归也使用一组人口统计学和经济协变量Vih。为了推断赢得医学奖的ITT效应,作者通过OLS估计了以下模型:yihj=β+βLOTTERYh+βXih+βVih+ihj。为了推断编者接受医疗补助的时间较晚,作者采用了一种仪器变量(IV)策略,将彩票作为购买医疗补助保险的工具。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-31 21:13