楼主: kedemingshi
1870 46

[量化金融] 临床试验中的P-hacking和激励如何影响分布 [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
15 个
通用积分
89.2735
学术水平
0 点
热心指数
8 点
信用等级
0 点
经验
24665 点
帖子
4127
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
kedemingshi 在职认证  发表于 2022-6-24 06:22:39 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《P-hacking in clinical trials and how incentives shape the distribution
  of results across phases》
---
作者:
J\\\'er\\^ome Adda, Christian Decker, Marco Ottaviani
---
最新提交年份:
2020
---
英文摘要:
  Clinical research should conform to high standards of ethical and scientific integrity, given that human lives are at stake. However, economic incentives can generate conflicts of interest for investigators, who may be inclined to withhold unfavorable results or even tamper with data in order to achieve desired outcomes. To shed light on the integrity of clinical trial results, this paper systematically analyzes the distribution of p-values of primary outcomes for phase II and phase III drug trials reported to the ClinicalTrials.gov registry. First, we detect no bunching of results just above the classical 5% threshold for statistical significance. Second, a density discontinuity test reveals an upward jump at the 5% threshold for phase III results by small industry sponsors. Third, we document a larger fraction of significant results in phase III compared to phase II. Linking trials across phases, we find that early favorable results increase the likelihood of continuing into the next phase. Once we take into account this selective continuation, we can explain almost completely the excess of significant results in phase III for trials conducted by large industry sponsors. For small industry sponsors, instead, part of the excess remains unexplained.
---
中文摘要:
鉴于人命危在旦夕,临床研究应符合道德和科学诚信的高标准。然而,经济激励可能会给调查人员带来利益冲突,他们可能倾向于隐瞒不利的结果,甚至篡改数据,以达到预期的结果。为了阐明临床试验结果的完整性,本文系统分析了向临床试验报告的II期和III期药物试验主要结果的p值分布。政府注册处。首先,我们没有检测到在统计显著性的经典5%阈值以上的结果聚集。其次,密度不连续性测试显示,小型行业赞助商在第三阶段结果的5%阈值处出现了上升。第三,与第二阶段相比,我们在第三阶段记录了更大比例的重要结果。将各个阶段的试验联系起来,我们发现早期有利的结果增加了进入下一阶段的可能性。一旦我们考虑到这种选择性的延续,我们几乎可以完全解释大型行业赞助商进行的试验在第三阶段的显著结果过剩。相反,对于小型行业赞助者来说,部分过剩原因仍无法解释。
---
分类信息:

一级分类:Economics        经济学
二级分类:General Economics        一般经济学
分类描述:General methodological, applied, and empirical contributions to economics.
对经济学的一般方法、应用和经验贡献。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Economics        经济学
分类描述:q-fin.EC is an alias for econ.GN. Economics, including micro and macro economics, international economics, theory of the firm, labor economics, and other economic topics outside finance
q-fin.ec是econ.gn的别名。经济学,包括微观和宏观经济学、国际经济学、企业理论、劳动经济学和其他金融以外的经济专题
--

---
PDF下载:
--> P-hacking_in_clinical_trials_and_how_incentives_shape_the_distribution_of_result.pdf (1.07 MB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:King 临床试验 hack HAC ING

沙发
何人来此 在职认证  发表于 2022-6-24 06:22:44
临床试验中的P-hacking和激励如何影响各阶段结果的分布*J’er^ome Adda+Christian DeckerMarco Ottaviani§2020年3月18日摘要鉴于人类生命危在旦夕,临床研究应符合道德和科学完整性的高标准。然而,经济激励可能会对调查人员产生利益冲突,他们可能倾向于隐瞒不利结果,甚至篡改数据,以实现预期结果。为了阐明临床试验结果的完整性,本文系统地分析了向临床试验报告的第一阶段和第三阶段药物试验主要结果的p值分布。政府注册处。首先,我们检测到,在统计显著性的经典5%阈值之上,没有出现任何结果。其次,adensity不连续性检验显示,小型行业赞助者在第三阶段结果的5%阈值处向上跳跃。第三,与第二阶段相比,我们在第三阶段记录了更大比例的重要结果。将各个阶段的试验联系起来,我们发现早期有利的结果增加了继续进入下一阶段的可能性。一旦我们考虑到这种选择性延续,我们就可以几乎完全解释大型行业赞助商进行的第三阶段IFR试验中过度的重要结果。相反,对于小型行业赞助者来说,部分超额仍无法解释。关键词:临床试验;药物开发;选择性报告;p-黑客;研究中的经济激励*感谢欧洲研究理事会通过拨款295835(EVALIDEA)提供资金。Wethank Marco Bonetti、Tarani Chandola、Sylvain Chassang、Francesco Decarolis、Edina Hot、John Ioanidis、MelissaNewham、Nicolas Serrano Velarde、Tony Tse和Deborah Zarin提供了有益的评论。所有作者的贡献都是平等的。

藤椅
大多数88 在职认证  发表于 2022-6-24 06:22:47
作者声明没有相互竞争的利益。应作者的要求,可提供完整的复制包。本文借鉴了Christian Decker的硕士论文“临床试验中的P-Hacking?”,由Marco Ottaviani和J’er^ome Adda监督,并于2017年4月20日在博科尼大学进行辩护。+意大利米兰,博科尼大学比德萨和伊吉尔经济系,Via Roberto Sarfatti 2520136。电话:+39-02-5836-5572。电子邮件:jerome。adda@unibocconi.it.瑞士苏黎世大学经济系和瑞银社会经济中心,Sch¨onbergasse 18001 Zurich,Switzerland。电话:+41-44-634-61-26。电子邮件:christian。decker@econ.uzh.ch.§意大利米兰博科尼大学比德萨和伊吉尔经济系,Via Roberto Sarfatti 2520136。电话:+39-02-5836-3385。电子邮件:marco。ottaviani@unibocconi.it.The临床试验中产生的证据容易受到多种偏见的影响[1-3]。虽然有些这样的偏见可能是偶然发生的,即使研究者不知道,但其他偏见可能是由研究者和赞助者的战略行为造成的。除了提高医疗质量的公共价值外,通过临床试验获得的信息对赞助制药公司也具有私人价值,赞助制药公司旨在证明新开发药物的安全性和有效性,这是美国食品和药物管理局(FDA)等当局批准上市的先决条件。

板凳
能者818 在职认证  发表于 2022-6-24 06:22:51
考虑到所涉及的巨大研发成本[4]和巨大潜在利益的诱惑,调查人员可能会受到利益冲突[5-8]和压力的影响,不得不保留或“美化”不利结果[9、10],甚至捏造和篡改数据[11]。在20世纪90年代和21世纪初,许多医学学者开始呼吁提高临床研究的透明度【12】,此前公众对选择性公布试验结果的惊人证据【13-15】、过早批准药物的案例【16】以及数据隐瞒的指控【17】表示强烈抗议。作为对这些担忧的回应,决策者建立了可公开访问的登记册和结果数据库,如ClinicalTrials。gov【20,21】(请参阅SI附录,了解临床试验(ClinicalTrials.gov)注册中心和报告试验结果的法律要求的更多详细信息)。临床试验。gov现在包含足够的数据,以便对报告的p值分布进行系统评估。这是第一次这样的分析,以调查“p-hacking”、出版偏见和“文件抽屉问题”的文献为基础,针对从生命科学[24]到心理学[25,26]、政治科学[27,28]和经济学[29-31]等多个领域的学术期刊发表。鉴于随着研究阶段的进展,风险不断增加,临床试验尤其适合检测赞助方的经济激励如何推动研究活动和报告偏差。临床试验的经济激励可能取决于赞助公司的规模[32]。与大公司相比,小公司可能通过误报结果获得更多收益,如果暴露在风险中,则损失的声誉更少。

报纸
能者818 在职认证  发表于 2022-6-24 06:22:53
在其他情况下,此类声誉问题因公司规模【35、36】或学术知名度【37】而异。虽然以前的文献主要集中在学术期刊上的科学出版物上,这些出版物的出版前研究结果通常是不可见的,但临床试验。gov允许我们观察早期研究阶段的临床试验结果。因此,我们能够跟踪研究结果随时间的演变,并构建以前工作中无法获得的反事实。通过将临床研究不同阶段的试验联系起来,我们能够量化激励措施的效果,以根据早期结果有选择地继续实验研究。我们的重点是作为II期和III期试验进行的药物预批准干预优势研究。第二阶段的试验研究药物的安全性和有效性,通常是通过小样本的实验对象。第三阶段试验调查疗效,同时监测对更大样本个体的不利影响,并在获得FDA等监管机构的市场退出批准方面发挥核心作用。为了便于分析,我们将p值转换为测试统计数据,假设它们都来自于无效假设的双侧Z检验,即药物具有与比较相同的效果。这种转换使我们能够更容易地研究分布的整体形状和统计显著性阈值周围的区域(有关数据和p-z转换的更多信息,请参见材料和方法以及SI附录)。z分数的分布:不规则性测试图1显示了为II期和III期试验的主要结果进行的测试所构建的z统计量的密度估计。

地板
可人4 在职认证  发表于 2022-6-24 06:22:56
我们在A组中展示了所有试验的结果,随后在D组中提供了主要赞助者的细分:B组中的非行业(NIH、美国联邦ZF、大学等)、C组中的前十大行业(样本中收入最大的十家制药公司;见表S1)和D组中的小行业(剩余的较小制药公司)。接下来,我们诊断出试验z-统计量分布中的三种可能的不规则性,或超过5%的显著阈值,对应于1.96的z-统计量。SI附录中收集了进一步的技术细节和稳健性检查。1、密度函数峰值略高于1.96。我们没有检测到密度峰值(或分布函数的不连续性)略高于1.96,即显著阈值。这些峰值表明,结果被用来清除重大障碍,在之前的生命科学学术出版物[24]以及经济学[31]和商业研究[39]的z分布测试研究中都有记录。因此,来自临床试验的z评分更自然的分布。与在科学期刊上发表的结果相比,GOV显示出更为完整的结果。这种差异的部分原因可能是缺少额外的编辑选择层,这也可能是基于所呈现结果的统计意义。这一首次发现表明,注册结果并不是仅仅为了清除显著阈值而在边际上波动。密度函数在1.96处的不连续性。我们通过一个依赖于简单局部多项式密度估计器的测试来研究z-统计量密度中是否存在不连续性[38]。第二阶段试验的密度是平稳的,在所有情况下,在1.96阈值处没有明显的向上移动。

7
nandehutu2022 在职认证  发表于 2022-6-24 06:23:00
与此相反,行业赞助的(小型和前十)第三阶段工厂的z统计密度显示为1.96。只有小型制药公司进行的III期试验(D组)出现了统计上的重大突破,并持续向上转移至FIG。1: 比较z评分的第二阶段和第三阶段密度,并测试z=1.96时的不连续性,这取决于牵头发起人的责任。第二阶段(蓝色虚线)和第三阶段(灰色实线)试验主要结果的constructedz统计密度估计。阴影区域为95%置信区间,1.96处的垂直线对应于0.05水平的统计显著性阈值。样本量:A:n=3953(第二阶段),n=3664(第三阶段);B: n=1117(二期),n=720(三期);C: n=1332(二期),n=1424(二期);D: n=1450(第二阶段),n=1520(第三阶段)。不连续性测试的显著水平【38】:*p<0.1;**p<0.05;***p<0.01;表S2中报告的精确p值。阈值右侧,表示异常数量的重要结果。这种模式是选择性报告的特征,即对一些不重要的结果进行战略隐瞒。大型和小型行业赞助者之间观察到的不同模式(面板C和D)在确定“大型”赞助者的各种替代方法中都很可靠(图S1)。此外,我们发现小型行业赞助商在将p值转换为单侧检验而非双侧检验的统计数据时,III期试验存在类似的不连续性(图S2)。3、与第二阶段相比,第三阶段的显著结果超出了第二阶段。图1表明,与第二阶段相比,第三阶段的有利结果超过了1.96阈值。与第一阶段相比,第三阶段更有可能观察到更有利的结果。

8
可人4 在职认证  发表于 2022-6-24 06:23:03
z统计量的第三阶段分布随机支配第二阶段分布。行业赞助的试验(C组和D组)的优势尤其明显。这种模式看似可疑,但并没有达到显著阈值的峰值那么令人担忧。虽然非行业赞助商的第二阶段试验结果只有34.7%高于1.96(第三阶段分别为34.8%,差异无统计学意义),但行业赞助商的第二阶段和第三阶段的显著结果比例分别上升至45.7%和70.6%。回想一下,上述分析仅考虑与试验主要结果相关的p值。这些结果构成了试验治疗成功与否的主要衡量标准,无论是对于研究者本身还是评估机构。所有赞助者组和两个阶段的较低等级次级结果的z分数密度在显著阈值处均未显示任何有意义的不连续性(见图S3和表S5)。此外,对于次要结果,与主要结果的分布相比,行业赞助的III期试验相对于II期试验产生的显著结果的过剩要小得多。我们发现,违规行为仅针对高风险的主要结果,这表明报告方的激励起到了一定的作用。将各阶段的试验联系起来:控制选择性继续FDA在决定上市批准时主要关注第三阶段的结果,这一决定对制药公司产生了重大的财务后果。鉴于这些激励措施,观察到的显著结果过剩,尤其是在行业赞助的第三阶段试验组中,可以解释为篡改(p-hacking)或未披露负面结果(选择性报告)的证据。

9
大多数88 在职认证  发表于 2022-6-24 06:23:06
然而,如果不像我们开始做的那样,首先仔细检查临床研究背后的动态激励因素,这一结论还为时过早。与第二阶段相比,第三阶段的显著结果过多的另一种解释是,只有在初始结果足够令人鼓舞的情况下,才有选择地将药物试验继续到下一阶段。选择性延续可以节省昂贵的临床研究费用,因此甚至可以在社会上发挥作用。2: 将二期和三期试验联系起来。如果我们发现数据库中至少有一个III期试验(无论是否报告相关结果)符合所有三个标准(干预、条件和时间),我们将II期试验视为继续进行。有关链接过程的更详细描述,请参见SIAppendix。只要这种经济考虑不会扭曲研究活动,使其远离重要但昂贵的项目,那么这是可取的。此外,从伦理的角度来看,当一种药物不太可能产生积极影响时,不应该对志愿者患者进行进一步的试验。应该将时间和资源用于更有前途的项目。我们在材料和方法上概述了赞助者继续决策的模型。为了确定选择性延续的影响,我们开发了一种程序,根据主要干预措施(即受试药物或药物组合)、待治疗的医疗状况和时间安排,将数据集中的II期和III期试验联系起来。此过程如图2所示。给定的II期试验可能(i)没有具有相同干预和相同条件的相应III期试验,或(II)在III期有一个或多个匹配。在后一种情况下,我们认为II期试验将继续到III期。

10
何人来此 在职认证  发表于 2022-6-24 06:23:09
我们向研究界提供的结果关联数据是我们开发的方法中的一个关键输入,该方法用于评估选择函数,捕捉行业赞助试验的选择性延续。根据我们的企业继续决策模型,我们使用虚拟变量的逻辑回归来估计选择函数,该逻辑回归表明数据库中的三期试验(无论是否报告三期结果)中是否至少有一项与二期z评分相匹配。我们控制多重假设检验的调整,灵活的时间趋势,以及可能影响第二阶段结果的说服力的其他协变量(每个试验的总注册人数的平方根代表统计测试的力量,活性对比剂与安慰剂)或在z分数之上进行研究的经济激励(治疗条件的固定效应);具体规格见材料和方法。该选择函数的预测值可解释为药物进展到第三阶段的概率,条件是第二阶段结束时可用的信息,包括第二阶段z评分和其他协变量。在大多数情况下,极低的p值不再准确报告,而仅报告为低于阈值0.001或0.0001(例如,p<0.001,而不是p=0.0008)。因此,我们通过在选择函数的规格中包含“z>3.29”(对应于p值被报告为p<0.001)和“z>3.89”(对应于p<0.0001)的假人,分别估计这两种情况的持续概率。表1显示了所有行业赞助商的估计logit系数(第1列),以及分别针对小型和前10名行业赞助商的估计logit系数(第2列和第3列)。图3以图形方式演示了估计的选择函数。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-31 13:00