楼主: kedemingshi
1871 46

[量化金融] 临床试验中的P-hacking和激励如何影响分布 [推广有奖]

21
可人4 在职认证  发表于 2022-6-24 06:23:44
该公司的决定为thusVPh2(I)=maxhV(I)+η;-c- η+δEz | IVPh3(z)i,其中δ是贴现因子。假设特殊冲击η和η均为iid和极值分布,进行III期试验的概率为逻辑函数[46]Prob(continuation)=exp(-c+δEz | IVPh3(z))exp(V(I))+exp(-c+δEz | IVPh3(z))=逻辑(I)。根据这个模型,我们使用逻辑回归来估计一个选择函数,该函数为行业赞助的试验捕获选择性延续。在第二阶段z评分样本中,如上文所述,我们估计logistic模型ContinuationI=logistichα+β(1- D1i- D2i)zPh2i+βD1i+βD2i+xiγ+φci+τti+εii,其中ContinuationII是一个虚拟变量,由我们跨阶段的试验链接得出,如果至少有一个III期试验与ii期试验相匹配,且z评分为1(无论是否报告结果),ZpH2是与主要结果相关的ii期z评分。d1和d2是统计数据的虚拟变量,分别报告为“z>3.29”或“z>3.89”。如上所述,这些病例如此频繁,我们将其分开处理。此外,向量XI收集了更多的控制变量,这些变量可能会影响第二阶段结果的感知说服力,或者影响进行z分数topof研究的经济激励。其中包括每个试验的总登记数的平方根(作为测试能力的代表),一个假人指示试验中是否有安慰剂(与活性对照物相反),以及一个假人指示是否明确宣布p值已调整为多个假设测试。对于最后一个变量,基线对应于未调整测试程序的临界值或未提供任何信息。

22
何人来此 在职认证  发表于 2022-6-24 06:23:47
我们从p值描述中手动编辑该变量;只有2.9%的相关观察值进行了明确调整。为了解释治疗不同类型疾病的药物之间潜在的系统性差异,我们将条件固定效应φc包括在内。为此,我们根据数据库管理员确定的网格项,将每个试验分配到15个最大类别中的一个条件中【21】。有关更多详细信息,请参阅SI附录。由于试验注册和结果报告往往存在很大的时间滞后,我们还可以通过包括完成年份固定效应τt来控制灵活的时间趋势。总结,zPh2、D、D、x和φc与I相关,与上述模型中第二阶段结束时的继续决策相关的信息。预测值可解释为药物进入第三阶段的概率取决于第二阶段z评分(以及在第二阶段结束时观察到的其他信息性协变量)。核密度估计集Z,Z,Znbe是一组给定试验中的z评分样本。为了估计密度,我们使用标准加权核估计量^f(z)=Wn∑i=1wihKz- 齐赫,其中W=∑ni=1wi,K(·)是Epanechnikov核函数,h是我们使用Sheapler-Jones插件估计器选择的带宽【47】。为了估计实际的第二阶段和第三阶段ID,我们将所有权重wi设置为1。为了构建为选择性延续控制的假设密度,我们使用选择函数中的预测概率作为权重,即wi=\\ continuationi,估计第二阶段统计的核密度。

23
nandehutu2022 在职认证  发表于 2022-6-24 06:23:50
图S4中绘制了不同赞助者群体精确报告(即,不作为不平等)测试统计的结果密度。该程序在精神上类似于荟萃分析中用于测试出版偏倚的权重函数方法[48,49],但它允许权重取决于多个变量。通过加权核密度估计构建反事实分布也被用于经济学文献的其他部分,例如,用于分解制度和劳动力市场因素对工资分布的影响【50】。参考文献1。Ioannidis,J.P.A.为什么大多数发表的研究结果都是错误的。Plos医学院。2 (2005).2、Garattini,S.等人,《循证临床实践:对证据有效性的威胁以及如何将其最小化的概述》。欧元。J、 实习生。医学。32, 13–21 (2016).Brown,A.W.、Kaiser,K.A.和Allison,D.B.数据和分析问题:错误、潜在主题和潜在解决方案。过程。自然的。Acad。Sci。美国115,2563–2570(2018)。4、DiMasi,J.A.、Hansen,R.W.&Grabowski,H.G.《创新的价格:药物开发成本的新估计》。J、 健康经济。22, 151–185 (2003).《临床研究中的经济激励》。N、 英语。J、 医学。320, 933–934(1989).6、Angell,M.学术药品是否出售?N、 英语。J、 医学。342, 1516–1518 (2000).7、Lexchin,J.、Bero,L.A.、Djulbegovic,B.&Clark,O.《制药行业赞助和研究成果与质量:系统综述》。BMJ 3261167–1170(2003年)。8、Budish,E.、Roin,B.N.&Williams,H.公司是否对长期研究投资不足?癌症临床试验的证据。是经济。修订版。105, 2044–2085 (2015).Boutron,I.&Ravaud,P.《生物医学文献研究的误传和扭曲》。过程。自然的。Acad。Sci。美国115,2613–2619(2018)。Li,G.等人。

24
nandehutu2022 在职认证  发表于 2022-6-24 06:23:53
加强随机对照试验的初步报告:三个最常见的挑战和建议的解决方案。过程。自然的。Acad。Sci。美国115,2595–2599(2018)。11、Fanelli,D.有多少科学家捏造和篡改研究?对调查数据进行系统回顾和元分析。《公共科学图书馆综合》第4期,第1-11期(2009年)。Young,N.S.、Ioannidis,J.P.A.&Al-Ubaydli,O.《为什么当前的出版实践可能会扭曲科学》。Plos医学院。5, 1–5 (2008).Simes,R.J.出版偏倚:国际临床试验注册案例。J、 临床。Oncol公司。4, 1529–1541 (1986).14、Easterbrook,P.、Gopalan,R.、Berlin,J.&Matthews,D.《临床研究中的出版偏倚》。《柳叶刀》337867–872(1991)。Turner,E.H.、Matthews,A.M.、Linardatos,E.、Tell,R.A.&Rosenthal,R.《抗抑郁药试验的选择性出版及其对明显疗效的影响》。N、 英语。J、 医学。358,252–260 (2008).罗格列酮的故事——FDA咨询委员会会议的教训。N、 英语。J、 医学。357, 844–846 (2007).哈里斯G.制药商hid测试数据,文件显示。《纽约时报》(2010年7月13日),A1(2010年)。Zarin,D.A.&Tse,T.走向临床试验的透明度。《科学》3191340–1342(2008)。19、Zarin,D.A.、Tse,T.、Williams,R.J.&Rajakannan,T.。ICMJE政策制定11年后的试验注册更新。N、 英语。J、 医学。376, 383–391 (2017).20、Zarin,D.A.、Tse,T.、Williams,R.J.、Califf,R.M.&Ide,N.C.《临床试验》。政府结果数据库–更新和关键问题。N、 英语。J、 医学。364, 852–860 (2011).Tasneem,A.等人,《临床试验综合分析数据库》。gov(AACT)和随后的临床专业重组。Plos One 7,1–12(2012年)。罗森塔尔,R.《文件抽屉问题与空结果的容忍度》。心理学。公牛86, 638–641 (1979).23、Franco,A.、Malhotra,N.和Simonovits,G。

25
能者818 在职认证  发表于 2022-6-24 06:23:56
社会科学中的出版偏见:解开文件抽屉。《科学》3451502–1505(2014)。Holman,L.,Head,M.L.,Lanfear,R.&Jennions,M.D.《生命科学实验偏差的证据:为什么我们需要盲数据记录》。Plos生物学。13, 1–12 (2015).25、Simonsohn,U.、Nelson,L.D.&Simmons,J.P.P曲线:文件抽屉的钥匙。J、 实验心理学。Gen.143534–547(2014年)。26、Hartgerink,C.H.、van Aert,R.C.、Nuijten,M.B.、Wicherts,J.M.和van Assen,M.A.小于的p值分布。心理学05:发生了什么?PeerJ 4,e1935(2016)。27、Gerber,A.和Malhotra,N.统计报告标准是否影响发布内容?两大主流政治学期刊的出版偏颇。Q、 J.Polit。Sci。3, 313–326 (2008).28、Gerber,A.S.、Malhotra,N.、Dowling,C.M.&Doherty,D.《两篇政治行为文献中的出版偏见》。美国。政治。第38591–613号决议(2010年)。德隆,J.B.和朗,K.是否所有的经济假设都是错误的?J、 政治。经济。100, 1257–1272(1992).斯坦利,T.D.超越出版偏见。J、 经济。Surv公司。19, 309–345 (2005).《星球大战:帝国主义者的反击》。是经济。J、 应用程序。经济。8, 1–32 (2016).32、Guedj,I.&Scharfstein,D.《组织范围和投资:来自美国国家经济研究局工作文件10933(2004)的药物开发战略和生物制药企业绩效的证据》。内政部:10.3386/w10933.33。Krieger,J.L.《试验与终止:从竞争对手研发失败中吸取教训》哈佛商学院工作文件18-043(2017)。34.Cunningham,C.、Ederer,F.&Ma,S.《杀手收购SSRN》工作文件3241707(2019年)。Jin,G.Z.和Leslie,P.餐厅卫生的声誉激励。是经济。J、 Microecon公司。1, 237–67 (2009).36、Mayzlin,D.,Dover,Y.&Chevalier,J。

26
可人4 在职认证  发表于 2022-6-24 06:23:59
促销评论:在线评论操纵的实证研究。是经济。修订版。104, 2421–2455 (2014).37、Azoulay,P.、Bonatti,A.和Krieger,J.L.《丑闻的职业影响:科学撤回的证据》。第46号决议政策,1552–1569(2017年)。38、Cattaneo,M.D.、Jansson,M.&Ma,X.简单局部多项式密度估计。J、 上午。Stat.Assoc.(2019年)。Meyer,K.E.、van Witteloostuijn,A.和Beugelsdijk,S.p中有什么?重新评估进行和报告假设检验研究的最佳实践。J、 内部总线。螺柱。48, 535–551(2017).40、DeVito,N.J.、Bacon,S.和Goldacre,B.遵守报告临床试验结果的法律要求。gov:队列研究。《柳叶刀》395361–369(2020)。Matthews,S.和Postlewaite,A.质量测试和披露。兰德J.经济。16, 328–340(1985).Dahm,M.、Gonz\'alez,P.&Porteiro,N.《试验、技巧和透明度:披露规则如何影响临床知识》。J、 健康经济。28, 1141–1153 (2009).Henry,E.《研究结果的战略性披露:证明你诚实的成本》。经济。J、 1191036–1064(2009年6月)。44、Polinsky,A.M.和Shavell,S.强制披露与自愿披露产品风险。J、 LawEcon公司。器官28360–379(2010年10月)。Henry,E.&Ottaviani,M.《研究与批准过程:说服的组织》。是经济。修订版。109911-55(2019年3月)。McFadden,D.《住宅选址建模》。运输。第673、72-77号决议(1978年)。Sheaper,S.J.&Jones,M.C.一种可靠的基于数据的带宽选择方法,用于核密度估计。J、 R.统计Soc。B系列统计方法。53, 683–690 (1991).Hedges,L.V.在荟萃分析中模拟出版物选择效应。统计学家。Sci。7, 246–255 (1992).49、Andrews,I.&Kasy,M.《出版物偏差的识别和纠正》。是经济。修订版。1092766–94(8月。

27
可人4 在职认证  发表于 2022-6-24 06:24:02
2019).DiNardo,J.、Fortin,N.M.&Lemieux,T.《劳动力市场制度和年龄分布,1973-1992:半参数方法》。《计量经济学》641001–1044(1996)。支持信息(SI)p-z转换我们的分析侧重于试验结果统计评估所报告的p值。然而,p-密度并不特别适合于在重要时刻进行不连续性测试,因为它在相关范围内是高度非线性的。由于无法在同一个图形中方便地显示显著阈值周围的区域和总体分布,因此p密度也不适合图形表示。为了克服这些问题,我们将p值转换为相应的z统计量,假设所有p值都来自于无效假设的双侧z检验,即药物具有与比较相同的效果。假设在零假设下,这个统计量是正态分布的,我们有一对一的对应关系z=-Φ-1(p),其中z是测试统计量的绝对值,Φ-1是标准正态累积分布函数的倒数。这种转换将分布从[0,1]区间“拉伸”到整个正实轴,p值越小,拉伸越大。因此,在不损失分布的其他部分的情况下,接近重要阈值的区域变得更加突出。此外,在显著阈值周围的范围内,z密度接近线性,因此更容易识别不连续性【38,51】。

28
mingdashike22 在职认证  发表于 2022-6-24 06:24:05
在生命科学的实验病例文献中也应用了类似的转换【24】。请注意,数据集中的p值来源于不同的统计程序(例如,ANCOVA、ANOVA、卡方检验、混合模型分析、线性回归、逻辑回归、单侧t检验、双侧t检验等),测试统计遵循不同的分布,有些是连续的,有些是离散的。尽管试验的样本量足够大,根据中心极限定理,许多结果统计数据近似正态分布,但通常试验的实际测试统计数据与我们计算的z不一致。然而,p-z变换允许我们方便地比较所有试验的结果。为了缓解我们在小型行业赞助商第三阶段试验的z密度中发现的不连续性(正文图1中的面板D)可能是由我们选择的特定转换驱动的担忧,我们为行业赞助试验提供了密度不连续性测试,p值转换为单侧而非双侧测试统计。即z1-侧面=-Φ-1(p)。图S2和表S4中显示的结果与依赖双边z分数转换的结果非常相似。我们仍然发现,小型赞助商进行的III期临床试验的经典重要阈值有一个相当大的、统计上显著的上升趋势。此外,第三阶段topten和第二阶段(两种类型的赞助商)的密度都很平稳。z分布的缺失尾部并非注册表中的所有p值都被精确报告,但有些仅在与某个阈值比较时说明,例如p<0.05或p>0.1。

29
可人4 在职认证  发表于 2022-6-24 06:24:08
然而,对于分布的大多数部分,这是一个氨基问题,只影响少数观察结果,相对报告成为非常低p值的规则,对应于高z统计。特别是,我们主要结果测试样本中30.8%的p值报告为p<0.001(对应于z>3.29)或p<0.0001(对应于z>3.89)。几乎没有报告任何p值低于这些阈值。对于z分布,这意味着我们知道右尾的大小(即,高于某个阈值的质量),但我们没有任何关于确切形状的信息。为了分析重要结果的份额,我们将此问题处理如下。如回归方程所示,我们将“z>3.29”的假人D1和“z>3.89”的假人D2纳入选择函数的估计中,以便分别估计这两种情况下的延续概率。此外,我们包括报告为零的p值(由于四舍五入),因此无法转换为D2组的z分数。在新的情况下,如果z分数被报告为与水平“z”不相等,而不是3.29和3.89,我们将相应的z替换为精确报告的z统计的平均值,条件是高于或分别低于“z”。对于不连续性测试(图1、图S1-S3和表S2-S5)和密度图(图S4),我们只考虑精确报告的p值(即,不作为不等式)。大型和小型行业赞助商的定义我们的分析依赖于密度估计,不同赞助商群体的比较试验需要对样本进行离散分割。我们关注赞助公司的规模对其激励的影响。因此,我们需要对“大型vs.小型”赞助商进行定义。

30
mingdashike22 在职认证  发表于 2022-6-24 06:24:12
在我们的主要分析中,我们将2018年收入排名前十的赞助商与其他较小的赞助商进行了比较。前十名是表S1第一列中斜体显示的十家公司。这一特殊定义不仅突出,而且还将p值样本大致分成两半,使两个子样本的统计能力最大化。这对于密度不连续性测试尤其重要,因为密度不连续性测试需要大样本量才能可靠。为了检查稳健性,我们对56个“大”的替代定义重复分析,并表明我们的主要结果适用于拆分样本的广泛替代定义。如表S1所示,我们不仅根据赞助商2018年的收入(第1列),还根据2018年处方药销售额(第2列)、2018年研发支出以及向注册中心报告的样本数(第4列)对赞助商进行排名。这四个排名相互关联并不奇怪。对于四个标准中的每一个,我们创建了“大与小”的十四个不同定义:前七名。余数、前八名与余数之比,依此类推,直至前二十名与余数之比。因此,总体而言,我们有14*4=56个不同的定义,其中之一是我们在主要分析中使用的十大收入定义。图S1显示了这56种不同定义的密度不连续性测试p值的直方图。在A组和B组中,我们可以看到,无论我们使用哪种定义,大工业赞助商的第二阶段和第三阶段z密度在1.96阈值下都不会出现显著突破。如图C所示,对于许多定义,我们发现第二阶段小型工业存在显著的不连续性,但在许多情况下,我们的p值远远高于0.05。第三阶段小型工业(D组)是我们发现的唯一一个主要规范有重大突破的子组。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-31 16:43