楼主: kedemingshi
1786 29

[量化金融] 检测p-hacking [推广有奖]

11
kedemingshi 在职认证  发表于 2022-6-24 04:51:42
(ii)p曲线gis在(0,1)上完全单调。完全单调性产生了额外的限制,可以利用这些限制来提高p-hacking统计测试的能力。虽然可用于单侧和双侧t检验,但并非所有检验都会产生完全单调的p曲线。例如,directcalculation表明,对于基于两个以上自由度的χ分布的测试(例如Wald测试),完全单调性可能会失败。下一个定理以p曲线及其导数的上界形式给出了额外的可测试限制。定理3(上界)。(i) p曲线和从上方开始的边界:g(p)≤ 1{p≤1/2}扩展cv(p)+ 1{p>1/2}=:B(0)(p),(9)g(p)≤ 1{p<2(1-Φ(1))}B(0)+1{p≥2(1-Φ(1))}=:B(0)(p),(10),其中▄B(0)(p):=经验值h类*(p) cv(p)-h类*(p)+ 经验值-h类*(p) cv(p)-h类*(p)≤ 经验值cv(p),和h*(p) 是ν(cv(p),h)的非零溶液:=(cv(p)- h) exp(cv(p)h)- (cv(p)+h)试验(-cv(p)h)=0。(ii)gand gare的导数从上方有界。对于s=1、2和k=1、2、3,那么(-1) 千克(k)硫(p)≤ B(k)s(p),其中B(k)在附录B.3中定义。与定理2中的结果一样,定理3中的结果产生了额外的限制,允许对p-hacking进行更强大的测试。定理3中的边界不仅排除了重大切向效应(如0.01、0.05和0.1)周围的大型驼峰,而且还限制了接近零的p曲线的幅度。对于双边测试,p-hacking的测试可以使用更清晰(但不是显式)的界B(0)(p)或更简单的显式界expcv(p).可以使用定理3中的类似参数,基于其他特定测试(如Wald测试)推导p曲线的边界。当p-hacking无法诱导增加的p曲线时,定理3的边界特别有用,在这种情况下,基于pcurve的非递增性的测试没有力量。

12
mingdashike22 在职认证  发表于 2022-6-24 04:51:45
直觉上,我们可能会怀疑,当所有研究人员p破解时,会发生这种情况,但这只是将p曲线的质量向左移动,而不是诱导碰撞。一个具体的例子是,当研究人员运行一定数量的M>1独立分析并报告最小的p值时,例如,当在独立子样本或数据集上进行规范搜索时。p-hacking下的结果p曲线为gp(p;M)=M(1- Gnp(p))M-1gnp(p),其中Gnpand gnpare在没有p-hacking的情况下p值的CDF和密度。请注意,当gnpis为非递增(完全单调)时,gpis为非递增(完全单调)。因此,gp不会违反定理1-2的可测试含义,因此基于这些限制的测试没有权力。然而,当M(1)时,gp可以违反定理3中的边界- Gnp(p))M-1> 1. 例如,考虑单侧情况,将∏设为比例参数为1的半正态分布。图2显示,gp违反了定理3中的上限,其程度取决于onM。0 0.01 0.02 0.03 0.04 0.05010203040500图2。基于单侧t检验和方程(9)中的上界比较规范搜索的p曲线。上限也有助于用非相似测试测试p-hacking。在第2.2节中,我们表明非递增性可能无法用于非相似的单侧t检验,这推广了Ulrich和Miller(2015)中的例子,他们研究了所有零假设为真的特殊情况,使得G(p)=p。由于完全单调函数的乘积是完全单调的,因此gp(p;M)的完全单调性源自1的完全单调性- Gnp(p)和Gnp(p)。在这种情况下,基于非递增性的p-hacking测试很可能会因为非相似性而不是p-hacking而拒绝。

13
可人4 在职认证  发表于 2022-6-24 04:51:49
由于非相似测试也可以导出上界,因此我们仍然可以使用p曲线及其导数的上界来测试p-hacking。最后,定理2-3中的刻画暗示了子区间I上p-曲线的相关刻画 (0,1),gs,I(p)=gs(p)/钻机(p)dp。特别地,gs的完全单调性意味着gs,I的完全单调性,因为g(k)s的符号等于k=0,1,2….的g(k)s的符号。此外,对于I=(0,α),g上的(保守)上界I(p)由定理3中的上界给出,由g(α)重新缩放≥ α对于s=1,2.4 p-hacking的统计检验我们考虑基于n个p值样本的p-hacking检验。我们考虑了三种不同于零假设(p曲线的零空间)规格的测试。因此,不同的测试将不同于他们能够检测到的违反无p-hacking空值的情况。在没有出版偏见的情况下,我们的测试是针对p-hacking的测试;当存在出版偏见时,它们通常是针对p-hacking和出版偏见的联合测试。4.1 p曲线的非递增性试验。试验1表明,在一般条件下,p曲线是非递增的。考虑以下测试问题H:g与H不增加:g不增加。(11) 基于假设检验问题(11)的流行检验包括二项检验(如Simonsohn et al.,2014;Head et al.,2015)和Fisher检验(Simonsohn et al.,2014)。在这里,我们描述了两种可选的更强大的测试。基于直方图的测试。设0=x<x<···<xJ=1是单位间隔的等距分区。将人口比例定义为πj:=Rxjxj-1g(p)dp,j=1,J

14
何人来此 在职认证  发表于 2022-6-24 04:51:52
当g不增加时,j: =πj+1-πjis非正例如,对于p≤ 1/2,非相似单侧t检验的p曲线上界与定理3第(i)部分中的上界一致。对于所有j=1,J- 因此,检验问题(11)中的无效假设可以表示为H:j≤ 0表示所有j=1,J-为了验证这一假设,我们应用Cox和Shi(2020)的条件卡方检验。我们在第4.3节和附录A中描述了该测试的实现,在附录A中,我们提出了更一般的测试,该测试嵌套了基于直方图的非递增性测试。基于p值CDF凹度的LCM测试。在零假设(11)下,p值的CDF是凹的。这一观察结果使我们能够应用基于最小凹主(LCM)的测试(例如,Carolan和Tebbs,2005;Beare和Moon,2015;Fang,2019)。基于LCM的测试基于p值的经验CDF^G与其LCM M M^G之间的距离来评估CDFB的凹度,其中M是LCM操作符。我们认为检验统计量T=√nkM^G-^Gk∞.均匀分布最不利于LCM测试(如Kulikov和Lopuha¨a,2008;Beare,2021),在这种情况下,T弱收敛于kMB-黑色∞, 其中B是[0,1]上的标准布朗桥。4.2连续性测试Theorem 1表明,在没有p-hacking的情况下,p曲线是连续的。因此,在显著阈值α(如α=0.05)下测试p曲线的连续性,为基于p曲线的非递增性的测试提供了一种替代方法。考虑以下测试问题:H:跛行↑αg(p)=跛行↓αg(p)对H:跛行↑αg(p)6=跛行↓αg(p)(12)测试(12)需要估计边界点α处的两个密度。传统的alkernel密度估计器不适合这项任务,因为它们会受到边界偏差的影响(例如,Karunamuni和Alberts,2005)。

15
能者818 在职认证  发表于 2022-6-24 04:51:55
克服这一问题的一种流行方法是使用依赖于数据预组合的局部线性密度估计器(例如,McCrary,2008)。我们将Cattaneo等人(2020)的密度不连续性检验与数据驱动的带宽选择相结合(Cattaneo等人,2021),该方法基于边界自适应局部多项式密度估计器,避免了预组合。对于函数f,LCM运算符定义为Mf=inf{g:g是凹的,f≤ g} (例如,Beare and Moon,2015,定义2.1)。4.3 K-单调性和上界检验定理2表明,基于t-检验的p-曲线是完全单调的,定理3建立了p-曲线及其导数的上界。在这里,我们基于这些可测试的限制开发测试。如果0,我们说函数ξ在某个区间I上是K-单调的≤ (-1) kξ(k)(x)表示每个x∈ I和所有k=0,1,K、 式中,ξ(K)是ξ的kth导数。根据定义,完全单调函数是K-单调的。考虑无效假设:gsis K-单调和(-1) 千克(k)秒≤ B(k)s,对于k=0,1,K、 (13)其中s=1表示单侧t检验,s=2表示双侧t检验,B(K)在定理3中定义。假设(13)暗示了对人口比例π的限制:=(π,…,πJ),可以表示为H:Aπ-J≤ b、 其中π-J: =(π,…,πJ-1).附录A.2中定义了矩阵A和向量b。我们估计π-使用样本比例^π-J、 该估计器为√具有平均π的一致渐近正态-Jand非奇异(如果所有比例均为正)协方差矩阵Ohm = diag{π,…,πJ-1} - π-Jπ-J

16
大多数88 在职认证  发表于 2022-6-24 04:51:58
继Cox和Shi(2020)之后,我们通过比较T=infq:Aq来测试空值≤bn(^π)-J-q) ^Ohm-1(^π-J-q) 对于自由度为秩(^a)的χ分布的临界值,其中^a是由对应于活动不等式的a的行构成的矩阵。5实证应用使用R(R Core Team,2020)和Stata(StataCorp,2019)进行分析。5.1 P-hacking in economics Journals我们重新分析了Brodeur et al.(2016b)收集的数据,其中包含了有关AER、QJE和JP上发表的641篇论文中50078个t检验的信息。假设(13)所隐含的π的上界通常并不尖锐。锐利的界限可以通过直接使比例及其差异达到极值来获得;见附录A.1。我们使用π-jb因为π的估计量的方差矩阵通过构造是奇异的,我们想将矩不等式的左侧表示为“核心”矩的组合。给定n个p值的样本,{Pi}ni=1,样本比例定义为^πi=nPni=11{xi-1<Pi≤ xi},i=1,J、 2005年至2011年(Brodeur等人,2016a)。基于标准正态分布,我们将t统计量转换为与双边t检验相关的p值。排除缺失信息的观察后,共有49838项测试,来自640篇论文。由于p值可能在论文中相关,我们在Cox和Shi(2020)检验中使用样本比例方差的聚类稳健估计。此外,我们将所有测试应用于每篇论文有一个p值的随机子样本,允许我们在存在论文内相关性的情况下使用精确测试。为了测试p-hacking,我们关注小于0.15的p值。

17
kedemingshi 在职认证  发表于 2022-6-24 04:52:01
我们考虑了二项式检验[0.04,0.05],Fisher检验,基于直方图的非递增性检验(CS1),基于ahistogram的p曲线和前两个导数的2-单调性和界检验(CS2B),LCM检验,以及0.05的密度不连续性检验。图3显示了反舍入前后以及基于全样本和随机子样本的结果。存在大量非常小的p值,有时被解释为证据价值的指示(例如Simonsohn et al.(2014);在我们的符号中,这是一个离零∏的大质量)。数据显示在^t=2处有一个明显的质量点(有427个这样的观测值),该质量点在p=0.046处平移到p曲线中的质量点。为了分析舍入的影响,我们还对Brodeur等人(2016b)提供的反舍入数据进行了测试。在下面的内容中,我们说如果一个测试的p值小于0.1,它将拒绝无p-hacking的null。基于所有p值的原始(四舍五入)数据,除Fisher检验和密度不连续性检验外,所有检验均拒绝零。没有基于随机子样本的拒绝,这表明小样本的测试可能力度不足。我们根据四舍五入数据得出了不同的结果。基于p值的完整样本,没有拒绝。这一发现表明,基于原始数据的拒绝包含少于10%观察值的p值。如果可用,我们将处理报告的p值。对于二项检验,我们将[0.04,0.05]分为两个子区间[0.04,0.045]和(0.045,0.05)]。在无p-hacking的空值下,(0.045,0.05)中的p值分数应小于或等于0.5,我们使用精确的二项检验进行评估。

18
能者818 在职认证  发表于 2022-6-24 04:52:05
对于CS1和CS2B,我们在基于所有p值进行测试时使用30个箱子,在基于p值的随机子样本进行测试时使用15个箱子。这一质量点可能是由于报告精度低(Brodeur等人,2016b),但也可能是由于p-hacking、出版偏见或其组合。通过随机重画估计值和标准误差构建去舍入数据;详见Brodeur等人(2016b)第二节。请注意,舍入和反舍入数据的(子)样本大小因反舍入而不同。测试:p-值二项式:0.000Fisher检验:1.000不连续性:0.522CS1:0.000CS2B:0.000LCM:0.000Obs in【0.04,0.05】:1175总obs:324370.00.20.40.60.00 0.05 0.10 0.15p-值比例(a)全样本(四舍五入数据)检验:p-值二项式:0.679Fisher检验:1.000不连续性:0.795CS1:0.492CS2B:0.428LCM:1.000Obs in【0.04,0.05】:1040总obs:323130.00.20.40.60.00 0.05 0.10 0.15p-值比例(b)全样本(de-四舍五入数据)测试:p-值二项式:0.395Fisher检验:1.000不连续性:0.980CS1:0.198CS2B:0.176LCM:1.000Obs in【0.04,0.05】:14总obs:4580.00.20.40.60.00 0.05 0.10 0.15p-数值比例(c)随机抽取(四舍五入数据)检验:p-值二项式:0.788Fisher检验:1.000不连续性:0.408CS1:0.111CS2B:0.061LCM:1.000Obs in【0.04,0.05】:14总obs:4560.00.20.40.60.00 0.05 0.10 0.15p-值比例(d)随机抽取(de-四舍五入数据)图3。P-P-hacking测试的曲线和P值。第4节描述了p-hacking测试。数据:Brodeur等人(2016a)。关于原始数据,主要是由于质量点略低于0.05,并表明舍入可能会对经验结论产生重大影响。基于去四舍五入p值的随机子样本,只有CS2B测试拒绝无p-hacking的空值。CS1测试接近拒绝(p=0.11)。

19
kedemingshi 在职认证  发表于 2022-6-24 04:52:08
这两个测试在所有四个样本中产生最小的p值。5.2跨不同学科的P-hacking我们重新分析了Head等人(2015)收集的数据,其中包含从PubMed数据库中的文本挖掘开放存取论文中获得的P-values(Head等人,2016)。有21个不同学科的p值。我们专注于生物、化学、教育、工程、医学和健康科学以及心理学和认知科学。数据包含正文中摘要和结果部分的p值。我们使用结果部分中的p值,允许我们使用更大的样本,并显示小于0.15的p值的结果。由于数据不仅包含t检验,我们考虑基于p曲线的非递增性和连续性的检验(定理1):对[0.04,0.05]的二项式检验,Fisher检验,基于直方图的非递增性检验(CS1),LCM检验,以及0.05的密度不连续性检验。为了解释p值的纸内依赖性,我们在CS1测试中使用了一个聚类稳健方差估计,并且还基于每张纸上有一个p值的随机子样本呈现结果。测试:p-值二项式:1.000费希尔检验:1.000不连续性:0.000CS1:0.000LCM:0.000Obs in[0.04,0.05]:38462总obs:3528170.000.050.100.150.200.00 0.05 0.10 0.15p-值比例(a)全样本(四舍五入数据)检验:p-值二项式:1.000费希尔检验:1.000不连续性:0.162CS1:0.000LCM:0.065Obs in[0.04,0.05]:28318总obs:3520660.000.050.100.150.00 0.05 0.10 0.15p-值比例(b)全样本(de-四舍五入数据)图4。P-医学和健康科学P-hacking测试中的曲线和P值。第4节描述了p-hacking测试。数据:Head等人(2016年)。图4的左面板显示了医学和健康科学(最大子样本)所有p值的原始数据直方图。

20
大多数88 在职认证  发表于 2022-6-24 04:52:11
P值的很大一部分四舍五入到小数点后两位,这将导致相当大的质量点为0.01、0.02、,0.15. 舍入使p曲线非单调且不连续,即使在没有p-hacking的情况下也是如此,从而使OREM 1中的可测试限制无效。因此,我们还显示了基于反舍入数据的结果。在这篇论文的早期版本(Elliott等人,2020年)中,我们表明,对于CS1,我们使用60个箱子(所有数据)和30个箱子(随机子样本)用于生物和医学健康科学,考虑到大样本量,其他学科使用30个和15个箱子。我们对数据进行如下舍入。对于向上舍入至kthdecimalpoint的每个观察到的p值,我们添加一个随机数,该随机数由区间[u,0.5]·10上支持的均匀分布生成-k、 其中,对于零p值,u=0,u=-非零p值为0.5。p曲线的非递增性,但不是连续性。图4的右侧面板显示了去圆对p曲线形状的影响。我们注意到,密度不连续性测试在这里不太合适,因为舍入会导致实质性的不连续性,即使在去舍入后也会保持这种不连续性。这意味着null的拒绝可能是由于舍入或p-hacking。在下文中,定义了对小于0.1的p值的无p-hacking的null的拒绝。表一给出了p值的完整样本结果。对于原始(舍入)数据,CS1和LCM测试拒绝所有规程的空值。去边界导致更少的拒绝。CS1测试仅拒绝生物科学、工程、医学和健康科学;LCM测试拒绝医学和健康科学。这表明四舍五入和四舍五入对实证结果有很大影响。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-3-11 16:00