楼主: kedemingshi
1772 29

[量化金融] 检测p-hacking [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
15 个
通用积分
89.3335
学术水平
0 点
热心指数
8 点
信用等级
0 点
经验
24665 点
帖子
4127
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
kedemingshi 在职认证  发表于 2022-6-24 04:51:09 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Detecting p-hacking》
---
作者:
Graham Elliott, Nikolay Kudrin, Kaspar Wuthrich
---
最新提交年份:
2021
---
英文摘要:
  We theoretically analyze the problem of testing for $p$-hacking based on distributions of $p$-values across multiple studies. We provide general results for when such distributions have testable restrictions (are non-increasing) under the null of no $p$-hacking. We find novel additional testable restrictions for $p$-values based on $t$-tests. Specifically, the shape of the power functions results in both complete monotonicity as well as bounds on the distribution of $p$-values. These testable restrictions result in more powerful tests for the null hypothesis of no $p$-hacking. When there is also publication bias, our tests are joint tests for $p$-hacking and publication bias. A reanalysis of two prominent datasets shows the usefulness of our new tests.
---
中文摘要:
我们从理论上分析了基于跨多个研究的$p$值分布的$p$黑客测试问题。我们提供了在无$p$-黑客攻击为空的情况下,此类发行版具有可测试限制(非递增)的一般结果。我们发现了基于$t$测试的$p$值的新的额外可测试限制。具体而言,幂函数的形状导致完全单调性以及$p$-值分布的界。这些可测试的限制导致对无美元黑客攻击的无效假设进行更有力的测试。当存在出版偏见时,我们的测试是针对$p$-黑客攻击和出版偏见的联合测试。对两个重要数据集的再分析显示了我们新测试的有用性。
---
分类信息:

一级分类:Economics        经济学
二级分类:Econometrics        计量经济学
分类描述:Econometric Theory, Micro-Econometrics, Macro-Econometrics, Empirical Content of Economic Relations discovered via New Methods, Methodological Aspects of the Application of Statistical Inference to Economic Data.
计量经济学理论,微观计量经济学,宏观计量经济学,通过新方法发现的经济关系的实证内容,统计推论应用于经济数据的方法论方面。
--
一级分类:Economics        经济学
二级分类:General Economics        一般经济学
分类描述:General methodological, applied, and empirical contributions to economics.
对经济学的一般方法、应用和经验贡献。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Economics        经济学
分类描述:q-fin.EC is an alias for econ.GN. Economics, including micro and macro economics, international economics, theory of the firm, labor economics, and other economic topics outside finance
q-fin.ec是econ.gn的别名。经济学,包括微观和宏观经济学、国际经济学、企业理论、劳动经济学和其他金融以外的经济专题
--

---
PDF下载:
--> Detecting_p-hacking.pdf (648.17 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:hack King HAC ING distribution

沙发
mingdashike22 在职认证  发表于 2022-6-24 04:51:14
检测p-hacking*Graham Elliott+Nikolay KudrinKaspar W¨uthrich§2021年5月26日摘要我们从理论上分析了基于多个研究中p值分布的p-hacking测试问题。我们提供了在无p-hacking为空的情况下,此类分布具有可测试限制(非递增)的一般结果。我们发现了基于t-检验的新的可测试pvalues限制。具体而言,幂函数的形状导致p值分布的完全单调性和界。这些可测试的限制导致对无p-hacking的空假设进行更强大的测试。当存在出版偏见时,我们的测试是针对P黑客和出版偏见的联合测试。对两个重要数据集的重新分析显示了我们新测试的有用性。关键词:p值,p曲线,完全单调性,发表偏倚*我们感谢Brendan Beare、Gregory Cox、Bulat Gafarov、Xinwei Ma、Ulrich M¨uller、Christoph Rothe、Yixiao Sun、编辑(Guido Imbens)、匿名裁判、新加坡国立大学、剑桥大学、伊利诺伊大学Urbana Champaign、曼海姆大学的研讨会参与者,以及2019年加利福尼亚计量经济学会议、2019年CEME青年计量经济学家会议和2019年SEA年终会议的与会者,以获取宝贵意见。K、 W.还与CESifo andifo研究所合作。通常的免责声明适用。+加利福尼亚大学圣地亚哥分校经济系,9500 Gilman Dr.La Jolla,CA92093。电子邮件:grelliott@ucsd.edu加利福尼亚大学圣地亚哥分校经济系,9500 Gilman Dr.La Jolla,CA92093。电子邮件:nkudrin@ucsd.edu§加利福尼亚大学圣地亚哥分校经济系,9500 Gilman Dr.La Jolla,CA92093。

藤椅
何人来此 在职认证  发表于 2022-6-24 04:51:18
电子邮件:kwuthrich@ucsd.edu1简介研究人员探索各种分析和处理数据的方法,然后有选择地报告产生更好结果的方法的能力,通常被称为p-hacking,这会损害研究的可靠性,并破坏报告结果的科学可信性。在缺乏系统复制研究或荟萃分析的情况下,评估p-hacking程度的一种流行方法是检查研究中p值的分布,称为p曲线(Simonsohn et al.,2014);请参阅Christensen和Miguel(2018)中的第2节,以了解评论。我们考虑了无p-hacking的无效假设与p-hacking的替代假设的检验问题,并为p-hacking的检验提供了理论基础。在一般假设下,我们分析了在没有p-hacking的情况下隐含的p值分布的零集,并提供了一般有效条件,在此条件下,对于真实效应的任何分布,p曲线在没有p-hacking的情况下是不增加和连续的。这些条件被证明适用于许多但并非所有流行的效果测试方法。对于p曲线基于t检验的主要情况,我们推导出了其他先前未知的可测试限制。具体而言,在没有p-hacking的情况下,基于t-检验的p-曲线是完全单调的,其大小及其导数的大小受到上界的限制。当p-hacking无法诱导增加的p曲线时,这些限制尤其有用,例如当研究人员在独立测试中进行规范搜索时。在这种情况下,基于非递增性的测试没有力量。我们的理论结果允许我们为phacking开发更强大的统计测试,我们将其应用于两个大型p值数据集。

板凳
大多数88 在职认证  发表于 2022-6-24 04:51:21
在现有测试不拒绝无p-hacking的空值的情况下,我们发现了p-hacking的证据。当存在发表偏倚时,我们的结果在无p-hacking和无发表偏倚的完全假设下刻画了p曲线。我们的测试成为针对p-hacking和发布偏差的联合测试,补充了识别发布偏差的可用方法(参见Andrews和Kasy,2019年及其参考文献)。例如:Masicampo和Lalande(2012)、Leggett等人(2013)、Simonsohn等人(20142015)、Head等人(2015)、de Winter和Dodou(2015)以及Snyder和Zhuo(2018)。文献中的另一种方法是使用t-统计分布来测试p-黑客攻击(例如,Gerber和Malhotra,2008;Brodeur等人,2016b,2020;Bruns等人,2019;Vivalt,2019)。2基于一般测试的p曲线我们提供了在无p-hacking的零假设下p曲线不递增的一般有效条件。这些结果很有用,因为p黑客测试通常假设p曲线不递增(例如,Simonsohn et al.,2014,2015;Head et al.,2015)。这一假设已通过分析和数值例子得到证实,这些例子依赖于测试的具体选择和被测试的真实效应分布(例如,Hung等人,1997;Simonsohn等人,2014;Ulrich and Miller,2018)。然而,这种分析不足以保证p-hacking统计测试的规模控制,因为真正的效果分布永远不知道。相反,在广泛的应用中,尺寸控制所需的是对一般测试和效应分布的p曲线形状进行表征。2.1设置考虑根据累积分布函数(CDF)Fh的分布分布分布的检验统计量T,其中h为检验的精确分布或渐近分布的参数建立索引。

报纸
可人4 在职认证  发表于 2022-6-24 04:51:24
我们假设参数h只包含感兴趣的参数。这适用于具有足够大样本和渐近关键测试统计数据的设置,这在应用研究中很普遍。假设研究人员正在测试假设:h∈ Hagainst H:H∈ H、 (1)其中H∩ H=. 设H=H∪ H、 用F表示chosennull分布的CDF,从中确定临界值。我们假设testrejects用于测试统计的大值,并将levelp测试的临界值表示为cv(p)。我们将重点关注具有连续且严格递增F的设置(见下面的假设1),并设置cv(p)=F-1(1 - p) 。对于任何h,我们用β(p,h)=Pr(T>cv(p)| h)=1表示- Fh(cv(p))参数为h的p级试验的拒收率。对于h∈ H、 这是测试的幂,我们将β(p,H)称为幂函数。对于本文的其余部分,我们将重点关注生成p值的测试满足假设1的设置。这使我们能够使用定义良好的densityfunction并提供一般结果。假设1(规律性)。F和fh是两次连续可微的,具有一致有界的一阶和二阶导数F、F、fh和fh。f(x)>0表示所有x∈ {cv(p):p∈ (0, 1)}. 对于h∈ H、 SUP(f)=SUP(fh)。假设1适用于许多具有参数F和Fh的测试,包括t测试和Wald测试。假设1的一个必要条件是Fand Fh的绝对连续性。这不是太严格,因为在许多情况下,F和FH是通常满足此条件的检验统计量的渐近分布。

地板
kedemingshi 在职认证  发表于 2022-6-24 04:51:27
此外,在测试统计数据具有离散分布的情况下,大小通常不相等,这可能导致违反非递增性的p曲线。考虑研究中p值的分布,我们从给定h值的T分布计算Pv值,其本身由概率分布∏得出。我们将∏称为真实效果的分布。p值的cdf为g(p)=ZHPr(T>cv(p)| h)d∏(h)=ZHβ(p,h)d∏(h)。(2) 在假设1下,定义p曲线如下。定义1(P曲线)。p值的密度,即p曲线,定义为asg(p):=ZHβ(p,h)pd∏(h)。在第2.2节中,我们分析了一般测试和分布∏的g形状。2.2 p-曲线的性质基于一般测试,我们推导出了在没有p-hacking的情况下,p-曲线对于任何真实效果分布都不增加的条件。我们证明了这个性质适用于大多数但并非所有流行的统计测试。在假设1下,p曲线的曲率遵循g(p):=dg(p)dp=ZHβ(p,h)pd∏(h)。g(p)的符号由拒绝概率的二阶导数确定,β(p,h)/p、 正如我们将在下面定理1的证明中所示,以下条件意味着β(p,h)/所有h的pis均为非阳性∈ H、 对于函数Д,我们将supp(Д)定义为{x:Д(x)6=0}的闭包。假设2(有效条件)。对于所有(x,h)∈ {cv(p):p∈ (0,1)}×H,fh(x)f(x)≥ f(x)fh(x)。假设2是对临界值变化时幂函数如何变化的限制,这取决于密度的形状。当H={0}和F=F时(例如,对于单侧t检验),假设2的形式为阿莫诺酮似然比性质,它将零下t的密度形状与备选方案H下t的密度形状联系起来。

7
nandehutu2022 在职认证  发表于 2022-6-24 04:51:30
下一个引理表明这个条件适用于许多流行的测试。设Φ表示标准正态分布的CDF。引理1。当(i)F(x)=Φ(x),Fh(x)=Φ(x)时,假设2成立-h) ,h={0},h (0, ∞) (例如,类似的单侧DT测试)(ii)F是具有尺度参数1的半正态分布的CDF,Fh是具有位置参数h和尺度参数1的折叠正态分布的CDFof,h={0},h R{0}(例如,双侧t检验)(iii)F是自由度d>0的χ分布的CDF,FH是自由度d>0的非中心χ分布和非中心参数h的CDF,h={0},h (0, ∞) (例如,Wald检验)以下定理表明,在任何真实效应分布的维持假设下,p曲线是非递增的,并且是连续可微的。定理1(一般测试的可测试限制)。在假设1-2下,g是连续可微的,g(p)≤ 0表示p∈ (0, 1).定理1中的结果适用于许多常用的统计测试,例如,在许多经验相关的设置中,p曲线在没有p-hacking的情况下不会增加。据我们所知,定理1提供了实例的第一个一般形式√N(^θ)- θ) a~ N(0,V),其中^θ是基于N个观测值和V的θ估计量∈ Rdim(θ)×dim(θ)已知(或可以一致估计)。考虑测试H:Rθ=R和H:Rθ6=R的问题,其中R∈ Rq×dim(θ),r∈ Rq,秩(R)=q。SetT=N(R^θ- r) (RV r)-1(R^θ- r) 。这用d=q和h=λ(RV R)来验证我们的框架-1λ,其中λ:=√N(Rθ- r) 。对利用p曲线的非递增性的现有p-hacking测试的调整。定理1进一步推动了密度不连续性测试的使用,作为基于p曲线非递增性的测试的替代。结果可以扩展到具有干扰参数的设置。

8
kedemingshi 在职认证  发表于 2022-6-24 04:51:33
在这种设置中,h既包含感兴趣的参数h,也包含附加的干扰参数h,使得h=(h,h)。让Hand H松开handh的支架。允许空分布依赖于hwith CDF Fh。p值的CDF等于(p)=ZH×Hβ(p,H,H)d∏(H,H),其中β(p,H,H)=1- Fh(cvh(p))和cvh(p)=F-1小时(1- p) 。在改变旋转以包括对h的依赖性之后,第1项的结果延伸到由该分布生成的p曲线∈ H、 Fh、Fh、Fh具有与F、F、fin假设1相同的属性,以及关于Fh、Fh、fhhold forh=(H,H)的假设。假设2变为fh(cvh(p))fh(cvh(p))≥ fh(cvh(p))fh(cvh(p)),用于(h,h)∈ H×H。然后直接从定理1的证明出发。在应用中,通常只检查p曲线的一部分。p曲线过盈区间I (0,1)由p的gI(p)=g(p)/RIg(p)dp给出∈ 一、 因此,结果直接延伸到这种情况。此外,由满足定理1假设的不同测试的有限集合构建的p曲线是连续可微且不增加的。定理1的假设直接提出了定理1的结果失败的p曲线。例如,当测试不相似时,在没有p-hacking的情况下,p曲线可以是非单调的,这是由于违反假设2而产生的。为了举例说明,考虑测试H:H≤ 0对H:H>0,使用(非相似)单侧t检验,其中f是N(0,1)分布的密度,fh是N(H,1)分布的密度。因此f(x)/f(x)=-x和fh(x)/fh(x)=-(十)- h) ,假设2在h时成立≥ 0,但当h<0时违反。因此,当h<0上的∏中的权重足够大时,p曲线可以是非单调的或递增的。

9
kedemingshi 在职认证  发表于 2022-6-24 04:51:36
例如,假设∏是一个正态分布,平均值为u,方差为1,这使得h<0上有一些质量,混合增加和减少p曲线。图1显示,当u=0时,产生的p曲线不递增,当u=-2.5.0 0.02 0.04 0.06 0.08 0.10102034050=-2.5=0图1。基于非相似单侧t检验的P曲线(0,0.1)。真实效应∏的分布是一个均值为u、方差为1.3的正态分布。基于t-tests的p曲线现在表明,对于由具有精确或渐近正态分布的t-tests生成p曲线的主要情况,存在其他先前未知的不稳定限制。这些限制允许我们为p-hackin开发更强大的统计测试g(见第4.3节)。特别是,这些测试在p-hacking不会导致违反非递增性的情况下具有强大的威力。首先考虑测试单侧假设的问题:h=0与h:h>0,(3)其中h是标量,h={0},h=(0,∞). 我们假设T~ N(h,1)。当使用单侧t检验来检验关于标量参数θ:H:θ=θ与H:θ>θ的假设时,这一点成立。允许√N^θ - θ~ N(0,σ),其中^θ是基于N个观测值的θ的麻醉剂,σ假定已知。将通常的t统计量表示为^t,并设置t=^t。定义h:=√N((θ- θ) /σ)本文件(3)。更一般而言,在实证工作中,使用限制正态实验来测试形式(3)假设的测试问题很常见(例如,使用正态临界值对回归参数进行单边测试)。所选零分布为标准正态分布,F=Φ。当T大于cv(p):=Φ时,levelp检验拒绝了零假设-1(1 - p) 。注意cv(p)≥ 0表示p∈ (0,1/2),则β(p,h)=1- Φ(cv(p)- h) p值的CDF为g(p)=1-Z[0,∞)Φ(cv(p)- h) d∏(h)。

10
何人来此 在职认证  发表于 2022-6-24 04:51:39
(4) 我们还考虑了该测试的双面版本。这里假设isH:h=0与h:h 6=0(5),其中h={0}和h=R \\{0}。假设双侧检验统计量T具有折叠正态分布。当使用t=| t |的双边t检验来检验关于θ:H:θ=θ与H:θ6=θ的双边假设时,这一点成立。更普遍地说,在实证工作中,使用限制正常实验来测试形式(5)假设的测试问题也很常见。选择的零分布是比例参数为1的半正态分布。当T大于cv(p):=Φ时,p级检验拒绝零假设-1.1.-p.p值的CDF为g(p)=2-ZR[Φ(cv(p))- h) +Φ(cv(p)+h)]d∏(h)。(6) 除了第2.2节的结果外,基于t试验的p曲线先前未知的可测试限制也遵循这些试验的幂函数形状。这些额外的限制使我们能够在没有p-hacking的情况下更好地确定潜在p曲线的空间,从而为p-hacking构建更强大的统计测试。它们还可以区分某些类型的p-hacking产生的非递增p曲线和没有p-hacking的曲线。基于单侧t检验的p曲线检验假设(4)isg(p)=Z[0,∞)经验值hcv(p)-h类d∏(h)。(7) 对于双侧t检验检验假设(6),p曲线isg(p)=ZR经验值hcv(p)-h类+ 经验值-hcv(p)-h类d∏(h)。(8) 我们的下一个定理表明p曲线(7)和(8)是完全单调的。如果0,则函数ξ在区间I上是完全单调的≤ (-1) kξ(k)(x)每x∈ i所有k=0,1,2,式中,ξ(k)是ξ的kth导数。定理2(完全单调性)。(i) p曲线gis在(0,1/2)上完全单调。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-16 12:51