检测p-hacking - 第3页 - 外文文献专区

21楼

发表于 2022-6-24 04:52:14

二项式测试和费舍尔测试并不拒绝任何学科的空值，这证明了使用更强大测试的重要性。表1.基于p值全样本的测试结果StDisciplicateBologicalSciencesSchemicalsciencesEducation EngineeringMedical and Health SciencesSPSychology and Cognitive Sciences基于二项分布1.000 0.342 0.975 0.999 1.000 1.000 1.000 Fisher检验1.000 1.000 1.000 1.000 1.000 1.000 1.000不连续性0.000 0.159 0.000 0.000 0.000 0.172CS1 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 LCM 0.000 0.000 0.0000.000 0.000 0.000Obs in【0.04，0.05】7692 296 220 396 38462 1621总obs 74746 2631 1993 3262 352817 15189De四舍五入二项0.993 0.133 0.467 0.975 1.000 0.811 Fisher试验1.000 1.000 1.000 1.000 1.000不连续性0.005 0.117 0.245 0.849 0.162 0.406CS1 0.028 0.530 0.884 0.836LCM[0.04，0.05]中的0.936 1.000 1.000 1.000 0.065 0.653 obs 5720 234 144 250 28318 1161总obs74550 2628 1988 3258 352066 15130注：表报告了基于四舍五入和反四舍五入数据p值的完整样本，对p-hacking应用不同测试得出的p值。第4节描述了p-hacking测试。数据：Head等人（2016年）。表二显示了基于随机样本的结果，每份论文有一个p值。我们发现，基于舍入数据，CS1测试（生物科学、工程、医学和健康科学）和LCM测试（化学科学除外的所有学科）拒绝了Null。基于非递增性的测试均未拒绝基于反舍入数据的完整测试。与基于所有p值的结果进行比较表明，检测p-hacking所需的样本量可能相当大。表二。

22楼

kedemingshi

发表于 2022-6-24 04:52:18

测试结果基于每纸一个p值的随机子样本测试DisciplinebiologicalSciencesschemicalsciencesEducation EngineeringMedical and Health Sciencesspsychology and Cognitive Sciences基于二项0.510 0.157 0.439 0.904 1.000 0.670 Fisher\'s Test 1.000 1.000 1.000 1.000 1.000 1.000不连续性0.113 0.083 0.103 0.000 0.000 0.000 0.157CS1 0.000 0.637 0.232 0.078 0.000 0.734LCM 0.000 0.2650.035 0.002 0.000 0.000Obs in[0.04，0.05]1482 63 42 85 6270 185总obs 13829 482 366 619 56892 1730De四舍五入二项0.178 0.116 0.286 0.712 0.976 0.465 Fisher检验1.000 1.000 1.000 1.000 1.000不连续性0.571 0.085 0.997 0.287 0.557 0.637CS1 0.992 0.688 0.481 0.732 0.872 0.747LCM 1.000 1.000 0.999 0.846 1.000 obs in[0.04，0.05]1053 45 28 51 4536 128 obs总计13788 482365 619 56753 1716注：表中报告了基于四舍五入和反四舍五入数据的随机p值子样本，对p-hacking应用不同测试得出的p值。第4节描述了p-hacking测试。数据：Head等人（2016年）。最后，基于全样本和随机子样本，密度不连续性测试至少拒绝了三个学科。舍入后，它只拒绝生物科学（全样本）和化学科学（随机子样本）。由于舍入引起的不连续性的普遍存在，预计会出现这些拒绝。6结论基于科学研究中p值的分布，我们为测试p-hacking提供了理论基础。我们建立了关于p曲线的一般结果，提供了p曲线的零集可以显示为非递增的条件。对于基于t检验的p值，当不存在p-hacking时，我们推导出p曲线上先前未知的额外限制。

23楼

大多数88

发表于 2022-6-24 04:52:21

这些限制导致建议使用更强大的测试来测试是否存在p-hacking。对文献中的两个数据集的重新分析表明，基于附加限制的新测试在测试p-hacking方面很有用。参考Andrews，I.和Kasy，M.（2019）。识别和纠正出版偏差。《美国经济评论》，109（8）：2766–94。Beare，B.K.（2021）。均匀分布对分布函数凹性检验的最小偏好性。统计，第e376页。URL：https://onlinelibrary.wiley.com/doi/abs/10.1002/sta4.376.Beare，B.K.和Moon，J.-M.（2015）。密度比排序的非参数检验。计量经济学理论，31（3）：471–492。Brodeur，A.、Cook，N.和Heyes，A.（2020年）。方法事项：经济学因果分析中的p-hacking和出版偏见。《美国经济评论》，110（11）：3634-60。Brodeur，A.、L\'e，M.、Sangnier，M.和Zylberberg，Y.（2016a）。《星球大战：经验反击》的复制数据。田纳西州纳什维尔：美国经济协会[出版商]，2016年。密歇根州安娜堡：大学间政治和社会研究联合会【经销商】，2019-10-12。https://www.openicpsr.org/openicpsr/project/113633/version/V1/view（上次访问日期：2020年9月23日）。Brodeur，A.、L\'e，M.、Sangnier，M.和Zylberberg，Y.（2016b）。星球大战：奥林匹克反击战。《美国经济杂志》：应用经济学，8（1）：1-32。Bruns，S.B.、Asanov，I.、Bode，R.、Dunger，M.、Funk，C.、Hassan，S.M.、Hauschildt，J.、Heinisch，D.、Kempa，K.、K¨onig，J.、Lips，J.、Verbeck，M.、Wolfsch¨utz，E.、andBuenstorf，G.（2019年）。报告已发布实证结果中的错误和偏差：来自创新研究的证据。研究政策，48（9）：103796。Carolan，C.A.和Tebbs，J.M.（2005年）。两样本问题中似然比排序的非参数检验。Biometrika，92（1）：159–171。Cattaneo，M。

24楼

大多数88

发表于 2022-6-24 04:52:24

D、，Jansson，M.，和Ma，X.（2020年）。简单局部多项式密度估计器。《美国统计协会杂志》，115（531）：1449–1455。Cattaneo，M.D.、Jansson，M.和Ma，X.（2021）。rddensity：基于密度不连续性的操作测试。R软件包版本2.2。Christensen，G.和Miguel，E.（2018年）。经济学研究的透明度、再现性和可信度。经济文献杂志，56（3）：920-80。Cox，G.和Shi，X.（2020年）。矩不等式模型中全向量和子向量推理的简单自适应大小精确测试。arXiv:1907.06317v2。de Winter，J.C.和Dodou，D.（2015年）。近几十年来，p值在0.041和0.049之间激增（但负面结果也在迅速增加）。PeerJ，3:e733。Elliott，G.、Kudrin，N.和W–uthrich，K.（2020年）。检测p-hacking。arXiv:1906.06711v3。Fang，Z.（2019）。kiefer-wolfowitz定理的补充和凹度测试。电子J、统计员。，13(2):4596–4645.Gerber，A.和Malhotra，N.（2008）。统计报告标准是否影响发布的内容？两大主流政治学期刊的出版偏颇。《政治学季刊》，3（3）：313–326。Head，M.L.、Holman，L.、Lanfear，R.、Kahn，A.T.和Jennions，M.D.（2015）。科学中p-hacking的范围和后果。PLoS生物学，13（3）：e1002106。Head，M.L.、Holman，L.、Lanfear，R.、Kahn，A.T.和Jennions，M.D.（2016）。数据来源：科学中p-hacking的程度和后果。Dryad，数据集。https://datadryad.org/resource/doi:10.5061/dryad.79d43（上次访问日期：2020年9月29日）。Hung，H.M.J.、O\'Neill，R.T.、Bauer，P.和Kohne，K.（1997）。当替代假设成立时p值的行为。生物特征学，53（1）：11–22。Karunamuni，R.和Alberts，T.（2005年）。核密度估计中的边界校正。统计方法，2（3）：191–212。Kulikov，V.N.和Lopuha–a，H.P。

25楼

mingdashike22

发表于 2022-6-24 04:52:27

(2008). 经验分布函数及其凹主函数之间偏差的全局测度分布。《理论概率杂志》，21（2）：356–377。Leggett，N.C.、Thomas，N.A.、Loetscher，T.和Nicholls，M.E.R.（2013）。P的生命：“非常重要”的结果正在上升。《实验心理学季刊》，66（12）：2303-2309。Masicampo，E.J.和Lalande，D.R.（2012）。p值的特殊普遍性就在下面。《实验心理学季刊》，65（11）：2271-2279。McCrary，J.（2008）。回归不连续设计中运行变量的操作：密度测试。《计量经济学杂志》，142（2）：698–714。R核心团队（2020年）。R：用于统计计算的语言和环境。奥地利维也纳统计计算基金会。Simonsohn，U.，Nelson，L.D.，和Simmons，J.P.（2014）。P曲线：文件抽屉的钥匙。实验心理学杂志：概述，143（2）：534–547。Simonsohn，U.，Simmons，J.P.，和Nelson，L.D.（2015）。更好的p曲线：使p曲线分析对错误、欺诈和野心勃勃的p-hacking更加稳健，回复Ulrich和Miller（2015）。实验心理学杂志：概述，144（6）：1146-1152。Snyder，C.和Zhuo，R.（2018）。经济学中的斯尼夫检验：其概率值的总体分布及其对出版偏差的影响。NBER WP 25058。StataCorp。(2019). Stata统计软件：第16版。德克萨斯州College Station.Ulrich，R.和Miller，J.（2015）。具有多个机会的事后选择p-hacking：通过偏度测试的可检测性？：评论Simonsohn、Nelson和Simmons（2014）。实验心理学杂志：概述，144:1137–1145。Ulrich，R.和Miller，J.（2018）。p-曲线的一些性质，以及对横向发布偏差的应用。心理学方法，23（3）：546–560。Vivalt，E.（2019年）。

26楼

能者818

发表于 2022-6-24 04:52:30

规范搜索和跨时间、方法和学科的重大影响。牛津经济与统计公报，81（4）：797-816。第4.3A节的附加细节。1比例界限及其差异假设（13）所暗示的比例界限及其差异通常并不尖锐。在这里，我们通过直接使比例及其差异达到极值，得出了尖锐的界限。对于单侧t检验，总体比例πj可以写成πj=Zxjxj-1g（p）dp=Zxjxj-1Z[0，∞)e-h/2ECV（p）d∏（h）dp=Z[0，∞)Zxjxj-1e级-h/2ECV（p）dp！d∏（h）=Z[0，∞)Zcv（xj-1） cv（xj）φ（t- h） dt！d∏（h）=Z[0，∞)λ1，j（cv，h）d∏（h），其中λ1，j（cv，h）：=Φ（cv（xj-1) - h）- Φ（cv（xj）- h）。对于双面t检验，πj=Rxjxj-1g（p）dp=RRλ2，j（cv，h）d∏（h），其中λ2，j（cv，h）：=λ1，j（cv，h）+λ1，j（cv，-h）。由于λ1，j（cv，h）作为h的函数，在h处达到最大值*j=cv（xj-1） +cv（xj），对于单侧t检验πj≤ 2Φcv（xj-1)-cv（xj）-1：=θ（0）1，j。在双边DT测试的情况下，界限，θ（0）2，j：=最大值∈Rλ2，j（cv，h）可通过数值计算得出。对于π的kthdi差的界限，请注意，对于j=1，J- kkj=Pki=0(-1）我ki公司πk+j-因此，土地|千焦|≤ θ（k）s，j：=最大值∈H（s）（kXi=0(-1） i+kki公司λs，k+j-i（cvs，h）），j=1，J- k、其中H（1）=[0，∞), 对于单侧和双侧DT试验，H（2）=R，s=1和s=2。这些边界可以用数值计算。A、 2无效假设根据比例isH：0制定的无效假设≤ (-1） k级k≤ θ（k）s，JXj=1πj=1，对于所有k=0，K、（14）其中kis a（J-k） ×1π的kthdi差向量，= π、 θ（k）s：=（θ（k）s，1，θ（k）s，J-k）是上界向量|k |（参见附录A.1），s=1表示单面试验，s=2表示双面试验。（14）中的不等式是按元素解释的。设Dmbe（m- 1） ×m以下形式的差异矩阵：Dm：=-1 1 0 . . .

27楼

可人4

发表于 2022-6-24 04:52:33

0 0..................0 0 0 . . . -1 1.此外，定义J×1向量eJ：=（0，…，1），（J- 1） ×1矢量iJ-1： =（1，…，1），矩阵F：=[-IJ公司-1，iJ-1]. 使用这个符号，我们可以(-1） k级k=Dkπ，k=1，K、其中Dk：=(-1） kDJ公司-k+1×···×DJ。注意，null下的限制等同于DKπ≥ c和π=eJ- Fπ-J、其中dk=[-1, 1] [IJ，D，…，DK]和c=[θ（0）s，…，θ（K）s，0（K+1）（J-K/2）×1]。符号表示Kronecker乘积。因此，我们可以将零假设（14）表示为H:Aπ-J≤ b、式中，A：=DKF，b：=DKeJ- c、当在子区间（0，α）上进行测试时，需要重新缩放边界。我们使用G（α）的一致（零）估计量来重新缩放边界。特别是，我们使用边界θ（k）s，j=θ（k）s，j/^G（α），其中^G（α）是α以下p值的分数。B证明B。引理1的证明注意，对于权利要求（i）{cv（p）：p∈ （0，1）}=R，对于权利要求（ii）和（iii）{cv（p）：p∈ (0, 1)} = (0, ∞).权利要求（i）：在这种情况下，f（x）=φ（x），fh（x）=φ（x- h）。因此，无论如何≥ 0，fh（x）f（x）- f（x）fh（x）=hφ（x）φ（x- h）≥ 权利要求（ii）：在这种情况下，f（x）=2φ（x），fh（x）=φ（x-h） +φ（x+h），其中x≥ 取导数和集合项后，我们得到fh（x）f（x）-f（x）fh（x）=2φ（x）h（φ（x-h）-φ（x+h））=2φ（x）φ（x+h）h（e2xh-1) ≥ 0，因为h（e2xh- 1) ≥ 对于任何h.索赔（iii）：在这种情况下f（x）：=f（x；d）=d/2Γ（d/2）xd/2-1e级-x/2和fh（x）=P∞j=0e-h/2（h/2）jj！f（x；d+2j），其中x>0。注意f（x；d）=f（x；d）（（d- 2） x个-1.- 1) /2. 在进行导数和收集项之后，我们得到fh（x）f（x）- f（x）fh（x）=∞Xj=0e-h/2（h/2）j2j！f（x；d+2j）f（x；d）（（d+2j- 2） x个-1.- 1) - （（d- 2） x个-1.- 1)=∞Xj=0e-h/2（h/2）jj！f（x；d+2j）f（x；d）jx-1.≥ 0，因为最后一个和中的每个项都是非负的。B、定理1的证明：β（p，h）=1-Fh（cv（p）），其中cv（p）=F-1(1 -p）。

28楼

大多数88

发表于 2022-6-24 04:52:36

根据假设1，β（p，h）p=fh（cv（p））cv（p）f（cv（p））- f（cv（p））cv（p）fh（cv（p））f（cv（p））=cv（p）f（cv（p））[fh（cv（p））f（cv（p））- f（cv（p））fh（cv（p））]。g的不递增现在遵循假设2，因为cv（p）/f（cv（p））≤假设1暗示了持续的差异性。B、 3定理2和3的证明注意，单侧和双侧t检验的p曲线由G（p）=Z[0，∞)ψ（cv（p），h）exp{-h/2}d∏（h），（15）g（p）=ZR（ψ（cv（p），h）+ψ（cv（p），-h））经验值{-h/2}d∏（h）（16），其中ψ（x，y）：=exp{xy}。我们首先证明一个关于ψ（x，y）的辅助引理。引理2。对于k≥ 1，ψ（cvs（p），h）的kth导数为ψ（k）（cvs（p，h）=(-1） khPk公司-1j=0Akj（cvs（p））[cvs（p）+h]jsk（φ（cvs（p）））kψ（cvs（p），h），其中系数Akj（cvs（p））是cvs（p）中具有非负系数的多项式，s=1表示单侧，s=2表示双侧t检验。证据通过直接计算，ψ（cvs（p），h）相对于p的一阶导数为ψ（1）（cvs（p，h）=-hsφ（cvs（p））ψ（cvs（p），h）。我们使用归纳法推导了ψ（cvs（p），h）的kthderivativeof。假设k>1ψ（k）（cvs（p），h）=(-1） khPk公司-1j=0Akj（cvs（p））[cvs（p）+h]jsk（φ（cvs（p）））kψ（cvs（p），h），其中系数Akj（cvs（p））是具有非负系数的cvs（p）中的多项式。定义Bk=（k- 1） cvs（p）Ak（cvs（p）），Bkj=（k- 1） cvs（p）Akj（cvs（p））+Akj-1（cvs（p）），对于j=1，k- 1，Bkk=Akk-1（cvs（p））；Ckj=Akj（cvs（p））/cvs（p）+（j+1）Akj+1（cvs（p）），对于j=0，k-2，Ckk-1= Akk公司-1（cvs（p））/CV（p），Ckk=0。

29楼

mingdashike22

发表于 2022-6-24 04:52:39

现在将ψ（k）（cvs（p），h）相对于p进行微分，得到ψ（k+1）（cvs（p，h）=(-1） k+1hPk-1j=0Akj（cvs（p））[cvs（p）+h]jsk+1（φ（cvs（p）））k+1ψ（cvs（p），h）+(-1） k+1（hcvs（p）k）Pk-1j=0Akj（cvs（p））[cvs（p）+h]jsk+1（φ（cvs（p）））k+1ψ（cvs（p），h）+(-1） k+1hPk-1j=0(Akj（cvs（p））/cvs（p））[cvs（p）+h]jsk+1（φ（cvs（p）））k+1ψ（cvs（p），h）+(-1） k+1hPk-1j=1jAkj（cvs（p））[cvs（p）+h]j-1sk+1（φ（cvs（p）））k+1ψ（cvs（p），h）=(-1） k+1ψ（cvs（p），h）sk+1（φ（cvs（p）））k+1hkXj=0（Bkj+Ckj）[CV（p）+h]j.由于Akj（cvs（p）），j=0，k- 1是具有非负系数的多项式，Bkjand-Ckjare也是具有非负系数的多项式，每j=0，k、由此得出ψ（k+1）（cvs（p），h）=(-1） k+1hPkj=0Ak+1j（cvs（p））[cvs（p）+h]jsk+1（φ（cvs（p）））k+1ψ（cvs（p），h），其中Ak+1j（cvs（p））=Bkj+Ckj，j=0，k、这就完成了导入步骤。利用引理2，我们现在证明定理2和定理3。定理2的证明。引理2和方程（15）–（16）直接暗示0≤ (-1） kg（k）（p），对于p∈ （0,1/2]和0≤ (-1） kg（k）（p），对于p∈ （0，1）对于k=1，2。双面情况的结果来自于以下事实：h{[cv（p）+h]jψ（cv（p），h）- [cv（p）-h] jψ（cv（p），-h） }≥ 每j 0∈ N和每h∈ R、定理3的证明。首先考虑单侧t检验。引理2意味着(-1）千克（k）（p）≤ B（k）（p）：=最大值≥0|ψ（k）（cv（p），h）| exp{-h/2},其中不等式适用于每个p∈ （0，1），每个项目的最大值是有限的∈ （0，1）自|ψ（k）（cv（p），h）| exp{-每小时h/2}是有限的≥ 0，并在h变为单位时收敛到零。对于g（p）的上界，注意对于p∈（0，1/2），最大≥0{|ψ（cv（p），h）| exp{-h/2}}=ψ（cv（p），cv（p））exp{-cv（p）/2}=exp{cv（p）/2}。

30楼

大多数88

发表于 2022-6-24 04:52:42

对于p>1/2和h≥ 0，hcv（p）- cv（p）/2<0，因此g（p）≤ 对于双面测试，根据上述参数和对称性，我们有(-1）千克（k）（p）≤ B（k）（p）：=最大值∈R|ψ（k）（cv（p），h）+ψ（k）（cv（p），-h） |扩展{-h/2}/2,其中，每个p的上限是有限的∈ (0, 1).对于g（p）的上界，可以证明对于p≥ 2(1 - Φ（1）），最大化|ψ（cv（p），h）+ψ（cv（p）的初始条件，-h） |扩展{-h/2}/2只有一个解，ho=0。通过检查二阶条件，我们可以验证0是最大值。对于p<2（1- Φ（1）），0变为局部最小值，一阶条件有两个额外的非零对称解，它们满足最大值的二阶条件，并导致目标函数的值相同。

[量化金融] 检测p-hacking [推广有奖]

本版微信群