楼主: kedemingshi
1837 46

[量化金融] 临床试验中的P-hacking和激励如何影响分布 [推广有奖]

11
大多数88 在职认证  发表于 2022-6-24 06:23:12
绿色实线显示预测的连续概率作为第二阶段z分数的函数。第二阶段的z分数越高,继续进行第三阶段的可能性就越大。当仅考虑小型赞助商或十大行业赞助商进行的试验时,较浅的虚线和较深的虚线显示了预测。估计的持续概率表明,较大的公司会更有选择性地继续研究项目。大型行业赞助者匹配试验的总体份额较低,这是由选择函数的向下移动所反映的。在我们的企业延续决策模型中,延续概率与延续特定项目的机会成本呈负相关。平均而言,对于拥有许多备选项目的大型赞助商来说,这一成本预计会更高。这一解释与之前研究的结果一致,即开发多种产品的大型公司的经理在终止无预期的研究项目时承担的私人成本较少,因此效率更高[32]。在表S6中,我们报告了当考虑与次要结果而非主要结果相关的II期Z核心时,相同逻辑模型的估计值。与z得分相关的系数在数量上要小得多,尽管样本量大得多,但大多数系数在统计上并不显著。

12
何人来此 在职认证  发表于 2022-6-24 06:23:15
这一发现证实,对试验成功的评估,以及选择性的继续,主要基于主要结果。表1:基于主要结果的选择性延续logit选择函数估计值。(1) (2)(3)赞助所有排名前10位的小型工业工业工业第二阶段z得分0.331***0.266***0.404***(0.0793)(0.100)(0.130)假人,第二阶段z得分报告为“z>3.29”1.063***0.756**1.750***(0.226)(0.329)(0.373)假人,第二阶段z得分报告为“z>3.89”1.232***0.787***1.643***(0.255)(0.285)(0.446)平均因变量0.296 0.344 0.246P值瓦尔德检验(2)=(3)0.00480控制是是是是鱼类状况固定影响是是是完成年份固定影响是是是观测3925 2017 1908否。试验1167 674 493注释:观察单位:试验结果;包括对照组:总体入组的平方根、安慰剂对照组的dummy和多重假设检验调整的dummy。具体规格见材料和方法。条件固定效应的分类基于与试验相关的医学主题词(MeSH)术语【21】;有关更多详细信息,请参阅SI附录。“P值Wald检验(2)=(3)”报告前三行系数联合相等的零假设Wald检验的P值以及第2列和第3列之间的常数。括号中的标准错误聚集在网格条件级别;显著性水平(基于双侧t检验):*p<0.1;**p<0.05***p<0.01。图3:预测的延续概率作为第二阶段z分数的函数,取决于牵头发起人的责任。预测基于选择性延续的估计logit选择函数;估计系数见表1。所有控制变量均固定在其平均值上。

13
能者818 在职认证  发表于 2022-6-24 06:23:18
阴影区域为95%置信区间。第二阶段和第三阶段重要结果差异的分解假设在我们的控制变量的条件下,第二阶段的预期z统计量等于类似的第二阶段试验的z,我们可以为主要结果构建一个假设的第三阶段分布,考虑选择性延续。为此,我们估计了第二阶段统计数据的核密度(目前不考虑“z>3.29”和“z>3.89”),根据我们的选择函数预测的连续概率,根据第二阶段试验的特点,对每个观测值进行重新加权。由此产生的反事实密度可以与实际的第二阶段和第三阶段密度进行比较,我们使用标准的未加权核估计器进行估计。由于选择函数在第二阶段z分数中增加,反事实的z密度呈逆时针方向,增加了重要结果的份额(见图S4)。为了计算假设制度下重要结果的总体份额,我们将估算密度与选择函数预测的“z>3.29”和“z>3.89”结果的数量相结合,并重新规范化为1。基于这一结构,我们将第二阶段和第三阶段重要结果份额的差异分解为两部分:选择性延续和无法解释的残差。如图4面板A和表S7所示,当我们考虑所有行业赞助的试验时,有选择地继续,即节约没有足够希望的试验成本,占差异的一半以上,留下48.5%的差异无法解释。接下来,我们对大型和小型工业赞助的试验分别重复估算程序。

14
能者818 在职认证  发表于 2022-6-24 06:23:22
对于小型赞助商的试验,第二阶段和第三阶段之间的重要结果份额差异稍大(前十大行业为21.9%,小型行业为25.8%)。对于由十家最大公司赞助的试验,第三阶段重要结果的实际份额与第二阶段选择性延续预测的份额之间的差异缩小到3.4个百分点,不再具有统计学意义。因此,对于前十大行业赞助商,我们的方法学表明,没有选择性报告或潜在篡改的迹象:与II期试验相比,选择性延续几乎可以解释III期试验中显著结果的全部超额份额。小型行业赞助商的情况则不同。根据表1估计和图3显示的选择函数,小赞助商比大赞助商更有可能进入第三阶段,尤其是在z统计相对较低的第二阶段试验之后。因此,对于小赞助商而言,选择性延续不太明显,与II期试验相比,III期试验的显著结果超额份额仅占三分之一。小赞助商实际报告的第三阶段结果似乎比选择函数预测的结果更有利;对于这些赞助者,我们留下了18.4个百分点的统计上显著的未解释的残差,如图4,面板a所示。如图4,面板B和C所示,这些大的和小的不同模式图。4: 小组A:基于选择的第二阶段和第三阶段主要结果差异分解,取决于牵头发起人的责任(十大收入标准)。

15
能者818 在职认证  发表于 2022-6-24 06:23:25
第二阶段和第三阶段的线代表p值低于5%(或相当于z分数高于1.96)的试验份额。绿色部分代表根据第二阶段分布构建的反事实,通过选择性延续解释的差异部分。有关精确的数量和样本量,请参见表S7。差异的显著性水平(基于双侧t检验):*p<0.1;**p<0.05;***p<0.01。专题讨论会B和C:第三阶段和第二阶段之间重要成果份额差异的百分比份额柱状图,解释为大型和小型行业赞助商在不同定义中的选择性延续。这些份额对应于面板A中的绿色区域除以绿色区域和灰色区域之和。行业赞助企业的样本根据大型赞助商的56种不同定义进行划分。这些定义由排名赞助商根据2018年的收入、2018年处方药销售额、2018年研发待定以及向注册中心报告的试验数量获得。对于这四个标准中的每一个,创建了14个不同的“大与小”定义:前七个与剩余、前八个与剩余,依此类推,直到前二十个与剩余。SI附录中提供了更多详细信息。行业赞助者在确定“大型”赞助者的各种替代方式中都表现强劲。对于小型赞助商(B组),解释差异的份额在19%到44%之间,大多数结果非常接近我们主要规范中的估计值(29%)。

16
可人4 在职认证  发表于 2022-6-24 06:23:28
此外,对于大型赞助商的不同定义(C组),估计值与我们的主要规格(85%)的结果非常接近,介于57%和101%之间。这些发现与我们之前的观察结果一致,即小工业是唯一一个三期z密度在1.96阈值处表现出统计显著不连续性的发起人群体。同样,最近对向临床试验报告试验结果是否符合FDA要求的评估。政府发现,合规性随着赞助商规模的增加而提高[40]。讨论和结论总的来说,临床试验的z评分分布。gov并没有指出对向注册中心报告的结果的广泛操纵。鉴于随机对照试验在生命科学和社会科学领域的应用日益广泛,我们的发现表明,有利于建立类似于临床试验的知识库。政府在这些其他领域监督结果并提高研究的可信度。如我们所示,要正确解释研究结果的分布,重要的是要了解研究的顺序性质及其与经济激励的相互作用。虽然第二阶段试验似乎产生了太多的积极结果,但我们可以通过将其与第二阶段结果联系起来并考虑选择性延续,来解释这种过度的可避免结果。然而,我们发现,选择性延续并不能完全解释小型企业赞助的III期试验中大量重要结果的原因。对于同一组试验,我们还发现经典显著阈值下的密度不连续。

17
nandehutu2022 在职认证  发表于 2022-6-24 06:23:31
这些模式表明,注册的实施者应该特别关注较小的行业赞助商,对于这些赞助商而言,争议问题可能不会那么严重——未来的工作应该对这一渠道进行更彻底的调查。综上所述,我们的探索性发现表明,目前的监管和执法水平不足以全面约束报告。为了评估改革的机会,决策者可能希望权衡强制性注册的事后信息效益与研究人员进行临床试验的减少激励【41–45】。这种冷效应的经验量化可以作为强化现行规则的社会成本效益分析的重要输入。材料和方法用于临床试验聚合分析的数据库。gov(AACT)用于临床试验综合分析的数据库。gov(AACT)于2010年9月推出,允许免费批量下载ClinicalTrials中包含的所有数据。ZF注册处【19–21】。该项目由临床试验转化倡议(CTTI)管理,CTTI是FDA和杜克大学的合作伙伴,旨在提高临床试验的质量和效率。该数据库每日更新,可在云中直接访问,包含40多个子表,其中包含关于时间、条件、干预措施、设施、位置、赞助者、调查者、负责当局、合格参与者、结果衡量、对手事件、结果和试验描述的信息。数据库中的试验涵盖了各种不同的疾病、干预措施和研究设计。因此,报告的结果在性质上也是非常多样的。

18
mingdashike22 在职认证  发表于 2022-6-24 06:23:34
与对特定疾病或治疗的荟萃分析(通常只使用数据集的一个狭义子群)不同,我们分析了总体数据中可能最大的部分。考虑到我们分析的总体水平,而不是使用估计系数,我们重点关注p值,这是许多试验中唯一统一和可比较报告的测量值,独立于其特征和用于分析的统计方法。本研究基于2019年8月15日可用的AACT数据。在过去两年中,我们在本文的早期草稿中基于较少的数据获得了类似的结果。我们专注于药物(相对于医疗器械和其他)的第二阶段和第三阶段干预性(相对于观察性)优势(相对于非劣效性)研究,这些研究报告了对试验主要结果进行统计测试的至少一个适当的p值。我们放弃了赞助商高露洁棕榄公司的试验,该公司报告的150项结果中,137项的p值完全等于0.05。我们将这些精确的p值0.05归因于报告错误;很明显,这些结果是作为显著结果报告的,p值小于或等于0.05。将高露洁棕榄的结果留在样本中会导致z=1.96的大幅飙升,这可能被错误地解释为p-hacking的证据。此外,我们放弃了使用NCT02799472的试验,因为它报告了211个主要结果的p值,因此比所有其他试验产生的影响要大得多(主要结果的p值平均数为2.5,中位数为1)。总之,我们从4977项试验的主要结果中获得了12621个p值样本。这些单一的p值构成了我们分析的观察单位。

19
nandehutu2022 在职认证  发表于 2022-6-24 06:23:38
根据《美国食品和药物管理局修正法案》(FDAAA),我们的大部分结果数据都与2007年之后进行的试验有关。p-z转换通过假设所有p值都来自于无效假设的双侧z检验,即药物具有与比较相同的效果,我们将从AACT数据库中获取的p值转换为相应的z统计。假设在零假设下,这个统计量是正态分布的,我们有一对一的对应关系z=-Φ-1(p),其中z是测试统计量的绝对值,Φ-1是标准正态累积分布函数的倒数。鉴于z密度在显著阈值附近接近线性,而相应的p密度在此范围内高度非线性,这种转换有助于图形分析和识别显著阈值处的不连续性。密度不连续性测试我们根据Cattaneo、Jansson和Ma开发的最新程序,在z=1.96显著阈值下,对z分数密度的不连续性进行测试【38】。该测试基于一种局部多项式密度估计技术,避免了数据的预组合。有关测试程序和补充结果的更多详细信息,请参见SI附录。连接第二阶段和第三阶段试验为了分析从第二阶段到第三阶段的选择性延续,我们将第二阶段和第三阶段试验连接到我们的数据集中,基于主要干预措施、待治疗的医疗条件和时间安排。我们在数据集中逐一阅读了所有II期试验的方案,其中至少报告了一个P值。我们只考虑在2018年12月底之前完成的第二阶段试验,以留出足够的时间,以便在2019年8月之前注册后续第三阶段试验。

20
何人来此 在职认证  发表于 2022-6-24 06:23:41
从方案中,我们确定了1773个i期试验的主要实验干预,即主要药物或药物组合,其疗效和安全性有待确定。如果我们可以将II期试验与至少一个III期试验联系起来,我们认为II期试验将继续进行。也就是说,如果我们发现数据库中至少有一个III期试验(无论是否报告相关结果)符合以下所有标准:1。干预:所有药物作为II期试验中至少一种确定的主要干预措施的一部分,均列为III期试验中列出的干预措施。这要么是完全相同的名称,要么是报告缔约国称为同一药物的同义词。2、条件:与II期试验相关的所有网格条件【21】也与III期试验相关。3、时间安排:第二阶段试验的开始日期早于第三阶段试验的开始日期。有关链接程序的更多详细信息,请参阅SI附录。选择功能通过Ia vector收集II期临床试验相关信息表示。它包含z分数、zPh2和其他描述试验情况的变量(例如代表统计功效的样本量)。如果发起人决定停止药物开发,则获得V(I)+η的回报。如果继续到第三阶段,公司支付开发成本c+η。特殊的回报和成本冲击η和η只能由企业观察到,但计量经济学家无法观察到。未来的回报在第三阶段z分数中表示为VPH3和isincreasing,这在决定建立第三阶段试验时是不确定的。根据I中提供的信息,公司对z分数的分布有一个预期。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-11 19:38