楼主: 可人4
1792 10

[量化金融] 关于P值黑客攻击的简短说明 [推广有奖]

  • 0关注
  • 2粉丝

会员

学术权威

76%

还不是VIP/贵宾

-

威望
10
论坛币
15 个
通用积分
48.9843
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
24465 点
帖子
4070
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
可人4 在职认证  发表于 2022-5-11 02:51:13 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《A Short Note on P-Value Hacking》
---
作者:
Nassim Nicholas Taleb
---
最新提交年份:
2018
---
英文摘要:
  We present the expected values from p-value hacking as a choice of the minimum p-value among $m$ independents tests, which can be considerably lower than the \"true\" p-value, even with a single trial, owing to the extreme skewness of the meta-distribution.   We first present an exact probability distribution (meta-distribution) for p-values across ensembles of statistically identical phenomena. We derive the distribution for small samples $2<n \\leq n^*\\approx 30$ as well as the limiting one as the sample size $n$ becomes large. We also look at the properties of the \"power\" of a test through the distribution of its inverse for a given p-value and parametrization.   The formulas allow the investigation of the stability of the reproduction of results and \"p-hacking\" and other aspects of meta-analysis.   P-values are shown to be extremely skewed and volatile, regardless of the sample size $n$, and vary greatly across repetitions of exactly same protocols under identical stochastic copies of the phenomenon; such volatility makes the minimum $p$ value diverge significantly from the \"true\" one. Setting the power is shown to offer little remedy unless sample size is increased markedly or the p-value is lowered by at least one order of magnitude.
---
中文摘要:
我们将p值黑客攻击的预期值作为$m$独立测试中最小p值的选择,由于元分布的极端偏斜,该值可能会大大低于“真实”p值,即使是单次试验。我们首先给出了统计上相同现象集合中p值的精确概率分布(元分布)。我们推导了小样本$2<n\\leq n^*\\约30$的分布,以及样本量$n$变大时的极限分布。我们还通过给定p值的逆分布和参数化来研究测试的“幂”性质。这些公式允许调查结果复制的稳定性和“p-hacking”以及元分析的其他方面。结果表明,无论样本大小为$n$,P值都是极为偏斜和不稳定的,并且在相同的随机复制下,完全相同的协议重复之间差异很大;这种波动性使得美元兑便士的最低价值与“真实”价值存在显著差异。结果表明,除非样本量显著增加或p值降低至少一个数量级,否则设置功率几乎不能提供补救措施。
---
分类信息:

一级分类:Statistics        统计学
二级分类:Applications        应用程序
分类描述:Biology, Education, Epidemiology, Engineering, Environmental Sciences, Medical, Physical Sciences, Quality Control, Social Sciences
生物学,教育学,流行病学,工程学,环境科学,医学,物理科学,质量控制,社会科学
--
一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--

---
PDF下载:
--> A_Short_Note_on_P-Value_Hacking.pdf (386.17 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:黑客攻击 distribution Independent Probability Statistical

沙发
kedemingshi 在职认证  发表于 2022-5-11 02:51:18
FAT TAILS研究项目关于P值黑客攻击的简短说明Nassim Nicholas TalebTandon工程学院摘要:我们将P值黑客攻击的预期值作为m个独立测试中最小P值的一个选择,由于梅塔分布的极端偏斜,该值可能远低于“真实”P值,即使是单次测试。我们首先给出了统计上相同现象集合中p值的精确概率分布(元分布)。我们推导了小样本2<n的分布≤ N*≈ 30以及随着样本量的增加而出现的限制。我们还通过给定p值的逆分布和参数化来研究测试的“幂”性质。这些公式允许调查结果产生的稳定性和“p-hacking”以及梅塔分析的其他方面。结果表明,无论样本大小n如何,P值都是极为偏斜和不稳定的,并且在相同随机复制的现象下,在完全相同的协议重复中差异很大;这种波动性使得最小p值与“真实”值相差很大。除非样本量显著增加或p值降低至少一个数量级,否则设置功率几乎没有什么补救措施。P值黑客攻击,就像一个期权或凸收益类中的其他成员一样,是一个受益于潜在方差和更高动量可变性的函数。研究人员或研究小组有选择权在m个试验中选择最有利的结果,而不透露尝试的次数,因此我们对最终结果的了解往往比现实更乐观。

藤椅
何人来此 在职认证  发表于 2022-5-11 02:51:21
最小p值和“可选性”的分布可以用一个简洁的公式表示,以便于理解科学研究中的偏见,尤其是在出版压力大的环境下。假设我们知道“真实”的p值,ps,那么在对这些现象的统计和识别副本进行的各种尝试中,它的实现会是什么样的呢?所谓真值ps,我们指的是它的期望值,根据大数定律,它是一个可能的样本集合,用于研究下的现象,即ismP≤mpiP-→ ps(其中P-→ 表示概率收敛)。对于相应的“真中值”pM,也可以进行类似的收敛性论证。n个小样本的分布可以明确表示(尽管有特殊的反函数),以及n个大样本的简约限制分布,除了主题值pM没有其他参数。我们无法得到一个明确的FORPs形式,但我们使用了中值。事实证明,正如我们在图3中所看到的那样,分布是非常不对称的(右倾),以至于75%的“真实”p值的实现将小于0.05(底线情况是通过给定协议的可能性比失败的可能性高3倍),更糟糕的是,第二版(2018年1月,第一版)的真实p值的60%是2015年3月。2 4 6 8 10 12 14m试验0。020.040.060.080.10预计最小p值。1.m次试验的“p-hacking”值为“真”中值p-valuepM=.15和预期的“真”值ps=.22。通过少量试验,我们可以观察到easilyone如何达到虚假值<.02。n=5n=10n=15n=20n=250.00 0.05 0.10 0.15 0.20p246810PDFFig。2.eq的不同值。1.向有限分布收敛。。12将低于0.05。

板凳
可人4 在职认证  发表于 2022-5-11 02:51:24
这意味着研究人员进行了认真的游戏和“恶作剧”,即使在适度的重复实验下也是如此。虽然具有紧凑的支撑,但分布显示出极端厚尾的特性。对于观测到的p值,例如,.02,“真实”p值可能大于.1(很可能接近.2),标准偏差大于.2(sic),平均偏差约为.35(sic,sic)。由于过度偏斜,土地L(以及更高的标准)中的分散度测量值与PS几乎不存在差异,因此标准偏差不成比例,这意味着样本中存在偏差。01 p值具有显著的概率,具有>真值。N.N.Taleb 1关于尾部研究项目,很明显,当我们谈论p值时,我们不知道我们在谈论什么。文献中对显式元分布的早期尝试在[1]和[2]中发现,尽管是在高斯从属和不太节俭的参数化情况下。[3]中讨论了所谓“统计显著性”的显著性问题的严重性,并在[4]中通过贝叶斯方法提供了补救措施,这实际上建议将标准收紧至p值≈ .01.但p值分布极端偏斜的严重性只有在观察元分布时才明显。对于表示法,我们用n表示给定研究的样本量,用m表示得出p值的试验次数。I.推导P值的元分布建议1。

报纸
何人来此 在职认证  发表于 2022-5-11 02:51:27
设P为随机变量∈ [0,1])对应于从配对T检验统计量(未知方差)得出的样本单尾p值,中值为m(p)=pM∈ [0,1]来自n个大小的样本。样本在统计上相同的样本集合中的分布具有以下特征:PDF~n(p;pM)=(ρ(p;pM)lf或p<~n(p;pM)hf或p>~n(p;pM)L=λ(-N-1) ps-λp(λpM)- 1) (λp)- 1) λpM- 2p(1)- λp)λpp(1)- λpM)λpM+1λp-√1.-λp√λpM√λp√1.-λpM+1-λpM- 1.n/2~n(p;pM)H=1.- λp(-N-1)λp- 1.(λpM)- 1) λp(-λpM)+2q1.- λpλpp(1)- λpM)λpM+1n+1(1),其中λp=I-12便士N, λpM=I-11-下午2点,N, λp=I-12便士-1.,N, 而我-1(.)(., .) 是反β正则化函数。备注1。对于p=分布,理论上不存在,但在实践中确实存在,我们可以用序列pmk=±k来解决它,如图4中[0,1]上的图所示,收敛于均匀分布。还要注意的是,所谓的“零”假设实际上是一组度量值0。证据设Z是一个随机归一化变量,其实现ζ来自n个实现的向量v,样本均值为mv,样本标准偏差为sv,ζ=mv-mhsv√n(其中MH是测试所针对的水平),因此假设~ 学生有两个n个自由度,最重要的是,他们应该提供平均数为ζ,f(ζ;ζ)=n(°ζ)-ζ) +nn+1√nBN其中B(,)是标准的beta函数。让g(.)是具有零均值和n个自由度的Student T分布的单尾生存函数:g(ζ)=P(Z>ζ)=Inζ+nNζ ≥ 0Iζ+n,N+ 1.ζ<0,其中I(,)是不完全的Beta函数。我们现在寻找g的分布o f(ζ)。考虑到这一点是一个合法的Borel函数,将概率p命名为一个随机变量,我们有一个转换的标准结果:φ(p,\'ζ)=fg(-1) (p)|Gg(-1) (p)|由于Z的对称性,我们可以将ζ转换为相应的生存概率中值。

地板
何人来此 在职认证  发表于 2022-5-11 02:51:30
由于观测值的一半落在¨ζ的两侧,我们可以确定变换是中值保持的:g(¨ζ)=,因此φ(pM,)=。因此我们最终得到了{ζ:Inζ+nN=pM}(阳性病例)和{ζ:Iζ+n,N+ 1.= pM}(阴性病例)。取而代之的是等式1和命题1。我们注意到n并没有显著增加,因为Pv值是根据标准化变量计算的(因此元分布的普遍性);一个高n对应于一个增加的收敛到高斯分布。对于大n,我们可以证明以下命题:命题2。在与上述假设相同的情况下,对于φ(.)的限制分布:画→∞ν(p;pM)=e-erfc-下午1点(2点)(erfc)-1(下午2点)-2erfc-1(2p))(2)其中erfc(.)是互补误差函数anderfc(.)-1相反。极限CDFΦ(.)Φ(k;pM)=erfcerf-1(1 - 2k)- erf-1(1 - 下午2点)(3) 证据。对于大n,Z=mvsv的分布√n是高斯分布的,以及单尾生存函数g(.)=erfcζ√, ζ(p)→√2erfc-1(p)。这种极限分布适用于具有未知假设样本方差的配对测试,因为该测试变为高斯变量,相当于当n较大时T检验(StudentT)收敛于高斯。N.N.Taleb 2FAT TAILS研究计划值(真实平均值)5%切入点中值~ 53%的变现<.05~25%的实现<.010.05 0.10 0.15 0.20p0。000.050.100.15PDF/Frequ。图3。单尾p值与期望值的概率分布。11由蒙特卡罗(直方图)生成,并用φ(.)(实线)。我们从具有给定属性的集合中抽取所有可能的子样本。分布的过度偏斜使得平均值远高于大多数观测值,因此产生了“统计意义”的错觉。。025.1.150.50.0 0.20.40.6 0.8 1.0p12345φ图4。

7
可人4 在职认证  发表于 2022-5-11 02:51:34
p在不同pM值下的概率分布。我们观察到pM=如何导致均匀分布。备注2。对于接近于0的p值,等于。2可以有效地计算为:φ(p;pM)=√2πpMslog2πpM呃-日志2π对数2πp-2个对数(p)s-日志2π对数2πpM-2对数(pM)+O(p)。(4) 对于相关值0<p<2π的频带,近似值更精确。由此,我们可以使用傅里叶变换或类似的方法,得到关于φ卷积的数值结果。二、P-值黑客我们可以得到最小P-值烫发试验在统计上相同的情况下的分布,从而得到“P-黑客”的概念,定义为研究人员试图获得许多实验中最低的P-值,或尝试直到其中一个测试产生统计意义。提议3。统计上相同的p值的最小m个观测值的分布变成(在命题2的有限分布下):μm(p;pM)=m eerfc-下午1点(2点)(2小时)-1(2p)-erfc-1(下午2点)1.-erfcerfc-1(2p)- erfc-1(下午2点)M-1(5)证明。P(P>P,P>P,…,pm>P)=Tni=1Φ(pi)=Φ(P)m。取第一个导数得到结果。在极限分布之外:我们对m的不同值进行数值积分,如图1所示。因此,更准确地说,对于m个试验,预期值计算为:E(pmin)=Z-μm(p;pM)Zp~n(u,)杜M-1dpii。假设β是给定p值p的测试的幂,对于从未观测到的参数θ中随机抽取X,样本大小为n。为了评估β作为真实功率度量的可靠性,我们执行了一个反问题:βXθ,p,nβ-1(X)提议4。设βcbe为假设为student T分布并在参数θ下计算的实现的测试幂的投影。

8
大多数88 在职认证  发表于 2022-5-11 02:51:37
我们有Φ(βc)=(Φ(βc)lf对于βc<Φ(βc)hf对于βc>,其中Φ(βc)L=p1- γγ-N-γqγ-1.√-(γ-1)γ-2.√-(γ-1)γ+γqγ-1.-γ-1.n+1p-(γ- 1) γ(6)Φ(βc)H=√γ(1 - γ)-nB,N-2(√-(γ-1)γ+γ)√γ-1+2√γ-1+2√-(γ-1)γ-1γ-1+γn+1p-(γ- 1) γBN(7) 式中γ=I-12βcN, γ=I-12βc-1.,N, γ=I-1(1,2个)-1)N.N.N.塔勒布3肥尾巴研究项目4。应用和结论o我们可以安全地看到,在实现p值及其最小值分布的这种随机性下,要从5%的置信水平(以及他们从中得到的推论)得到科学家所期望的结果,我们需要一个至少小一个数量级的p值复制论文的尝试,如开放科学项目[5],应考虑其自身程序中的误差范围,以及对有利结果的明显偏见(I型错误)。在复制过程中,一个先前被认为重要的测试失败并不令人惊讶——事实上,应该令人惊讶的是,以接近的幅度复制被认为重要的结果测试的“功率”也有同样的问题,除非降低p值或将测试设置为更高的水平,例如0.99。感谢Marco Avellaneda、Pasquale Cirillo、Yaneer Bar Yam、twitter上友好的人、twitter上不那么友好的长篇大论心理学家。。。参考文献[1]H.J.Hung、R.T.O\'Neill、P.Bauer和K.Kohne,“替代假设成立时P值的行为”,生物统计学,第11-22197页。[2] H.Sackrowitz和E.Samuel Cahn,“作为随机变量的P值预期P值”,《美国统计学家》,第53卷,第4期,第326-331页,1999年。[3] A.Gelman和H.Stern,《美国统计学家》第60卷第4期,第328-331页,2006年,“显著”和“不显著”之间的差异本身在统计学上并不显著”。[4] V.E.Johnson,“统计证据的修订标准”,美国国家科学院学报,第110卷,第。

9
能者818 在职认证  发表于 2022-5-11 02:51:40
48,第19313-19317213页。[5] O.S.Collaboration等人,《心理科学再现性的评估》,《科学》第349卷,第6251期,aac4716页,2015年。N.塔勒布

10
escaflowne1985 在职认证  发表于 2022-5-12 20:39:33
感谢分享~~~~~~么么哒

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-31 03:49