楼主: kedemingshi
1164 33

[经济学] 令人反感的比较:作为复合决策的排名和选择 [推广有奖]

11
可人4 在职认证  发表于 2022-4-26 16:12:26
这一观察结果与关于生成性对抗网络的最新文献有关,例如Athey、Imbens、Metzger和Munro(2019),这些网络的目标模型和估计器在模拟时成功地模拟了观测数据。6.令人不快的比较G的其他非参数极大似然估计也可能引起兴趣。Efron(2016)提出了一种优雅的对数样条筛方法,可以对G进行平滑估计;这具有优势,尤其是从推理的角度来看,代价是重新引入选择调谐参数的任务。Laird和Louis(1991)的一个早期提议将G的参数经验Bayes估计与EM步骤合并,将参数估计拉回到NPMLE。给出一个估计值^G,就可以直接计算每个样本观测的后验分布,或者对于样本外观测的后验分布。实际上,我们已经估计了先验值,就像Robbins(1951)的二进制平均值问题一样,但当我们采用使用^G的插件程序时,我们忽略了^G的可变性。这可能解释了在某些推理问题中G的平滑估计的改进性能,如Koenker(2020)所推测,Jiang和Zhang(2021)对此进行了更详细的研究。在续集中,我们将比较基于这些后验分布的各种函数的排序和选择程序。一个主要的例子是后验平均数,但排序和选择问题表明了其他可能感兴趣的函数。如果我们被要求估计受二次损失影响的θi,并假设标准高斯噪声,则贝叶斯规则由后验平均值(2.1)δ(y)=E(θ| y)=y+f(y)/f(y)给出。Efron(2011)将其称为Tweedie公式,它出现在Robbins(1956)的M.C.K.Tweedie中。Gu和Koenker(2016b)的附录A提供了一个元素推导。

12
nandehutu2022 在职认证  发表于 2022-4-26 16:12:32
当恰好是高斯时,非线性收缩项采用一种特别简单的形式,因为在这种情况下,f本身也是高斯的,并且公式简化为经典Stein规则的众所周知的线性收缩变体。在这篇简短的综述中,我们重点介绍了高斯位置混合和后验均值的复合决策问题,然而NPMLE适用于各种其他混合问题和其他包含其他后验函数的损失函数,我们将在下一节中看到。Efron(2019)及其讨论为相关方法提供了更广阔的视角。Koenker和Gu(2017)中描述了几种NPMLE方案的实施,Koenker和Gu(2015-2021)的R PackageBayes中提供了这些方案。同质方差提供给你的是实值测量值,yi:i=1,2,··,n,比如学生或老师的考试成绩表现,医院外科手术的存活率等。,并且被告知测量值是可交换的,近似高斯分布,具有未知的平均值θ和已知的方差σ,临时求取相同的值σ。如果你决定接受它,你的任务是选择一组大小不超过θi最大元素αn的元素。你的第一个倾向可能是将每个yi视为对应θi的最大似然估计,并选择αn最大观测值,但综合决策框架表明,将问题作为一个整体来处理会更好。第二个自然倾向可能是用一些线性或非线性收缩规则计算θ的后验平均值Gu和Koenker 7,对它们进行排序并选择α最佳值,但我们会发现这也可能是有问题的。3.1. 后尾概率。后验概率排序是后验概率排序的一种自然选择。

13
kedemingshi 在职认证  发表于 2022-4-26 16:12:39
设θα=G-1(1 - α) 定义为vα(y):=P(θ)≥ θα| Y=Y),然后根据后验尾概率排序得出决策规则δ(Y)=1{vα(Y)≥ λα}其中选择阈值λα,使得P(vα(Y)≥ λα) = α. 该排名标准由Henderson和Newton(2016)提出,作为固定分位数水平α的排名工具。它可以用多种测试术语来解释:1-vα(y)是Efron、Tibshirani、Storey和Tusher(2001)和Storey(2002)的局部错误发现率,用于检验假设H:θ<θαvs.HA:θ≥ θα. 为了看到这一点,我们把一个二元随机变量hi=1{θi≥ θα},观测i的损失函数isL(δi,θi)=λ1{hi=0,δi=1)+1{hi=1,δi=0},对于一般的拉格朗日乘子λ。复合Bayes风险为E[nXi=1L(δi,θi)]=n[α+Zδ(y)[(1- α) λf(y)- αf(y)]dy]式中f(y)=(1- α)-1Rθα-∞ν(y |θ,σ)dG(θ)和f(y)=α-1R+∞θα|(y |θ,σ)dG(θ),|(y |θ,σ)=- θ)/σ)/σ. 固定λ的贝叶斯规则为δ(yi)=1nvα(yi)≥λ1+λowwhere vα(y)=αf(y)/f(y)=P(θ)≥ θα| Y=Y)和f(Y)=(1- α) f(y)+αf(y)。假设vα(y)在y中是单调的,可以找到唯一的λα,使得P(δ(y)=1)=P(vα(y)≥ λα/(1 + λα)) = α.引理3.1。对于固定α,假设Eθ| Y[yLG|(y|θ,σ)|y]<∞, vα(y)是单调的,集合Ohmα:={Y:vα(Y)≥ λα/(1+λα)}具有嵌套结构,即如果α>α,则Ohmα Ohmα.这种贝叶斯规则的任何实现都需要对混合分布G进行估计,或是某种本质上等价的东西,这将使我们能够计算局部错误发现率vα(y)和切分θα。NPMLE,或者可能是它的一个版本,将为这项任务提供一个自然的^G。3.2. 后尾预期和其他损失。

14
kedemingshi 在职认证  发表于 2022-4-26 16:12:45
与其通过简单计算错误分类来评估损失,我们可以考虑用θ的大小来加权此类错误分类,例如,L(δi,θi)=nXi=1(1- δi)1(θi)≥ θα)θi。当然,这假设我们已经以某种合理的方式将分布G居中,也许是通过强制平均值或中值为零。在P(δ(Y)=1)=α的约束下,最小化关于8个令人不快的比较δ,得到拉格朗日函数minδZ(1)-δ(y))1{θ≥ θα}θ~n(y |θ,σ)dG(θ)dy+λhZ Zδ(y)~n(y |θ,σ)dG(θ)dy-αi等价于δZ1{θ≥ θα}(θ - λ) ν(y |θ,σ)dG(θ)dy-Zδ(y)hZ1{θ≥ θα}(θ - λ) ν(y |θ,σ)dG(θ)-Zλ1{θ<θα}~n(y |θ,σ)dG(θ)idy。忽略第一项,因为它不依赖于δ,Oracle Bayes规则变成,选择δ(y)=1如果,R1{θ≥ θα}θν(y |θ,σ)dG(θ)R~n(y |θ,σ)dG(θ)≥ λ、 选择λ,使P(δ(Y)=1)=α。这些标准与风险评估文献中出现的预期短缺标准密切相关。同样,NPMLE可用于构建可行的后验排序标准。Lin、Louis、Paddock和Ridgeway(2006年)还考虑了其他几种损失函数,其中一些是基于等级的全球排列。虽然看起来很直观,但这种损失函数比我们在本文剩余部分中考虑的损失函数要难处理得多。3.3. 错误发现和α水平。虽然我们的损失函数产生了不同的排名标准,但当测量精度相同时,它们的决策规则会导致相同的选择。当方差是齐次的时,有一个全局截断函数ηα和一个决策规则Δα(Y)=1(Y)≥ ηα),确定所有决策规则的共同选举。引理3.2。

15
nandehutu2022 在职认证  发表于 2022-4-26 16:12:52
对于固定α和齐次方差,后验平均数、后验尾概率和后验尾期望都会产生相同的排名,因此选择相同。在我们的高斯混合设置中,选择的边际错误发现率为mF DR=P(θ<θα|Δα(Y)=1)=α-1Zθα-∞Φ((θ - ηα)/σ)dG(θ),边际错误未发现率为,mF NR=P(θ)≥ θα|Δα(Y)=0)=(1)- α)-1Z∞θαΦ((ηα- θ) /σ)dG(θ),图3.1显示了当混合分布G为标准高斯分布且σ=1时,一系列容量约束α的错误发现率和错误未发现率。在这种低信噪比情况下,截止值ηα为(1-α) N(0,2)的分位数,很难区分功勋者和幸运者。对于选择顶部α分位数的个体,错误发现率高得惊人,尤其是对于较小的α,这意味着所选集合可能包含非常高比例的错误发现。当α=0.10时,θ低于阈值θα的选定观测的比例略大于50%。20%40%50%60%60%80%20%40%40%40%40%40%40%50 50 50 50 50%50 50 50 50%60%60%80%80%80%80%80%80%80%80%的80%80%的50%50%50%50%50%50%50%80%的50%50%50%50%50%50%50%80%σ=10.5 0.526 0 0.205 0.0.0 0.205 0.0.0.0.0 0 0 0 0.0.0 0 0 0 0.0 0 0 0 0.0.0 0 0 0.0.0 0 0 0 0.5 0.5 0.410.414 0.414 0.414 0.414 0.410.0.0.0.0.0.0.0 0 0 0 0.0 0.0.0.0 0 0 0.0.0.0 0 0 0 0.410 0 0 0.0 0 0 0 0 0.5400.1980.3920.4950.6090.915σ=50.2960.0930.192 0.247 0.313 0.487 0.196 0.383 0.484 0.596 0.897表3.1。随着信号变得更加分散,FDR得到了改善。在标准高斯测量误差和高斯分布G的情况下,对于θ,G的方差可以解释为信噪比。随着G方差的增加,选择变得更容易,FDR也降低。

16
kedemingshi 在职认证  发表于 2022-4-26 16:12:58
错误选择的单位在选择阈值附近变得更加集中。表中的第2-6列报告了错误选择的单位的分位数,以标准偏差的形式从阈值测量。第7-11列报告了正确选择的单位的相应分位数。当θ的方差(信噪比)从1增加到5时,选择问题就变得更容易了。这不仅反映在错误发现率从一半以上下降到三分之一左右,还反映在表3.1中的结果中,表3.1显示错误选择的个体的θ真实值聚集在更接近标准偏差测量的阈值θα的地方。当σ=1时,我们有大约50%的错误选择,正确选择的个体和错误选择的个体之间的θ大致对称地分布在阈值周围。在这种情况下,当测量误差的大小与潜在能力的高斯变异性相当时,即使是包含问题精确分布特征的完整知识的oracle决策规则,也可能无法实现比偶数更高的几率,即所选个体具有高于选择阈值的潜在能力。随着α方差的增加。00 0.10 0.20 0.300.4 0.5 0.6 0.7αFDR(α)0.00 0.10 0.20 0.300.05 0.10 0.15αFNR(α)图3.1。

17
kedemingshi 在职认证  发表于 2022-4-26 16:13:04
标准高斯混合分布的错误发现率和错误未发现率。10令人不快的比较5然后选择变得更容易,只有1/3的被选择者被错误地选择,并且这些θ值中的大多数(80%)在距离选择阈值0.5标准偏差之内。也许值得强调的是,在边缘,在决策边界附近,总是很难区分真假发现,但罗斯福衡量的是所有不正确选择的比例,而不仅仅是那些接近阈值的选择。以更连续的方式进行惩罚的其他损失函数可能会反映表3.1中的信息。例如,可以考虑通过潜在影响和阈值之间差异的大小来加权分类误差的损失。然而,这种损失使得采用常规形式的差错控制变得更加困难。到目前为止,我们已经隐含地假设所选集合的大小是由参数α预先确定的。基于一个特定的损失函数建立了一个排名,我们只需选择由排名最高的观察值组成的大小为dαne的子集。在下一小节中,我们开始考虑通过限制错误发现的概率来修改这个策略。这将允许选择集的大小适应选择任务的难度。3.4. 防止虚假发现。认识到所选人员中虚假“发现”的风险,我们将考虑扩展损失函数,(3.1)L(δ,θ)=nXi=1hi(1)- δi)+τnXi=1n(1- 嗨)δi- γδio+ τnXi=1δi- αn其中hi=1{θi≥ θα}. 如果我们将τ设置为零,则根据第3.1节中讨论的贝叶斯规则最小化预期的无损。

18
kedemingshi 在职认证  发表于 2022-4-26 16:13:10
另一方面,如果我们将τ设为零,那么最小化预期损失将导致一个决策规则,该规则等价于一个具有零假设H0i:θi的多重检验问题≤ θα; 目标是在限制极限FDR率控制在γ级(即E[Pni=1(1))的情况下,最大限度地减少过度发现的预期数量-hi)δi]/E[Pni=1δi]≤ γ.当τ=0时,风险可以表示为Eθ| YhL(δ,θ)i=nXi=1(1- δi)vα(Yi)+τnXi=1δi- αn其中vα(yi)=P(θi)≥ θα| Yi=Yi)。在Y上取另一个期望,并在δ和τ上最小化,得到决策规则δ*i=(1,如果vα(yi)≥ τ*0,如果vα(yi)<τ*.选择拉格朗日乘子,使约束P(δi=1)≤ α等于:τ*= min{τ:P(vα(yi)≥ τ) ≤ α} 每次选择都会通过vα(yi)改进目标函数,但会产生τ的代价。由于所有选择都会产生相同的成本,我们可以根据vα(yi)排序,选择单元,直到达到容量约束αn。最后一个单元的选择可能需要随机化,以完全满足约束条件,如下所述。Gu和Koenker 11当τ=0时,焦点转移到边缘FDR,即预期错误发现数与预期选择数的比率。这与Benjamini和Hochberg(1995年)定义的最初FDR略有不同。然而,当nn较大时,这两个概念是渐近等价的,如Genovese和Wasserman(2002)所示。

19
kedemingshi 在职认证  发表于 2022-4-26 16:13:17
我们的目标是,Eθ| YhL(δ,θ)i=nXi=1(1- δi)vα(Yi)+τnXi=1{δi(1- vα(Yi))- γδi}.再次对Y进行期望,并对δ和τ进行最小化,得到δ*i=(1,如果vα(yi)>τ*(1 - vα(yi)- γ) 0,如果vα(yi)≤ τ*(1 - vα(yi)- γ) 拉格朗日乘数取一个值τ*使边缘的罗斯福受到平等的约束。当这两个约束都被纳入时,我们必须平衡更多选择带来的功率增益,以及容量约束和FDR控制带来的成本。贝叶斯规则求解,minδEhnXi=1(1-δi)vα(yi)i+τEhnXi=1n(1-vα(yi))δi-γδioi+ τEhnXi=1δii-αn.考虑到决策函数的离散性,该问题似乎采取了经典背包问题的形式,但按照Basu、Cai、Das和Sun(2018)的方法,我们将考虑问题的一个放松版本,在该版本中,单元按顺序选择,直到违反一个或另一个约束,最终选择随机化,以精确满足约束。评论鉴于损失函数的拉格朗日形式,考虑选择问题的优化视角是很自然的。最小化(3.1)中定义的损失预期相当于最小化P[δi=0,θi≥ θα]受P[δi=1,θi<θα]/P[δi=1]的约束≤ γ和P[δi=1]≤ α. 因此,我们正在寻找一个阈值规则,该规则最小化了容量约束和决策规则的边际FDR率低于γ水平的约束下的预期未发现数量。从测试的角度来看,这个最小化问题也很容易被视为等同于决策规则δP[δi=1 |θi]的最大化≥ θα],受相同的两个约束。提议3.3。

20
kedemingshi 在职认证  发表于 2022-4-26 16:13:24
对于任何一对,(α,γ),使得γ<1- α、 最优Bayesrule的形式为δ*i=1{vα(yi)≥ λ*(α,γ)}式中λ*(α,γ)=vα(t*) 和t*=max{t*, T*},T*= minnt:Rθα-∞■Φ((t)- θ) /σ)dG(θ)R+∞-∞■Φ((t)- θ) /σ)dG(θ)- γ ≤ 0o,t*= 明特:Z+∞-∞■Φ((t)- θ) /σ)dG(θ)- α ≤ 表示标准正态随机变量的生存函数。12.令人反感的比较。最佳切割效果*取决于数据生成过程以及α和γ的选择。当数据有噪声时,FDR控制约束可能会在达到容量约束之前被绑定,因此所选的集合可能会比预先指定的α比例小得多。另一方面,当信号较强时,在达到电容约束之前,FDR控制约束不太可能绑定。我们已经看到,当方差是齐次的时,最优选择规则在Y上,因此很明显,任何基于Y的单调变换的排序都会导致一个等价的选择集。我们还应该强调,我们关注的是依赖于α的零假设,而多重测试文献,例如Efron、Tibshirani、Storey和Tusher(2001)、Sun和Cai(2007)以及Basu、Cai、Das和Sun(2018),通常关注的是H0i:θi=0的零假设。当方差是齐次的时,无论我们使用的是α相关的零点还是传统的零零点,因为基于传统零点P(θ>0 | Y=Y)的变换也是Y的单调函数,因此产生了一个等价的决策规则。然而,当方差不均匀时,这种不变性不再成立;对(y,σ)的不同变换会导致不同的决策规则,从而导致不同的性能,使用传统的零假设不再适用于排名和选择问题,我们将在下一节中展示。4.

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-28 17:38