楼主: kedemingshi
1875 46

[量化金融] 临床试验中的P-hacking和激励如何影响分布 [推广有奖]

31
nandehutu2022 在职认证  发表于 2022-6-24 06:24:14
对于绝大多数替代定义,该结论是确定的,P值从未超过0.146。我们还重复了基于对56个不同定义中的每一个的选择性延续来预测重要III期结果份额的反事实练习。正如正文中所讨论的,大型和小型行业赞助商之间的不同模式在定义“大型”赞助商的各种替代方法中都很强大(图4,面板B和C)。z分数分布和密度的不连续性测试我们提供了z=1.96显著阈值时z分数密度不连续性的正式测试。我们根据Cattaneo、Jansson和Ma开发的最新程序进行操纵测试【38,51】。该测试基于一种局部多项式密度估计技术,避免了数据的预组合。表S2显示了主要结果密度测试的p值,具体取决于试验主要赞助者的影响,如正文所述。我们没有发现任何操纵第二阶段试验的证据。对于第三阶段,p值较低,但拆分样本时,仅对smallindustry赞助的试验有意义。正文中的图1表明,我们发现的断裂不是由于尖峰,即质量浓度正好高于1.96(导致密度和累积分布函数不连续),但由于密度持续向上移动,结果频率增加,也进一步向右移动1.96(导致密度不连续,但累积分布函数不连续)。

32
mingdashike22 在职认证  发表于 2022-6-24 06:24:17
为了加强这一说法并区分这两种情况,我们对行业赞助的III期试验进行了进一步的密度不连续性测试,截止值分别高于显著阈值0.05和0.5,对应于z=2.01和z=2.46,我们发现在1.96处出现了中断。使用此方法,我们可以隐式测试累积分布函数中的不连续性。如果密度的不连续性是由于1.96处出现峰值,我们预计我们的测试将在上述某个点发现密度向下跳跃。如果存在操纵,且所有偏差结果都集中在1.96处(累积分布函数中的尖锐不连续性为1.96),则密度应在阈值上方出现尖锐向下的不连续性(通过2.01处的测试获得)。更现实地假设,研究人员希望将其结果推到显著阈值以上,但不能完美地将p值设定为0.05,我们预计超过1.96的多余质量会慢慢消失(通过2.46的测试获得)。即使在没有明显的不连续性的情况下,同样在这种情况下,我们预计密度会有下降的趋势。表S3中所列各截止值右侧和左侧的偏差校正密度估计值差异未显示出这种下降趋势。相反,对于小型行业赞助商而言,2.01和2.46的差异仍然是一个积极的迹象,后者甚至在统计上具有显著意义。这些发现证实,密度在显著阈值附近持续向上移动,但累积分布函数没有中断,过量质量仅集中在略高于1.96的位置。次要结果z密度的类似不连续性测试在显著阈值处未显示任何值得注意的中断(图S3和表S5)。

33
nandehutu2022 在职认证  发表于 2022-6-24 06:24:20
此外,与主要结果的分布相比,行业赞助的III期试验相对于II期试验产生的过量显著结果要小得多。链接第二阶段和第三阶段试验为了分析从第二阶段到第三阶段的选择性延续,我们在我们的数据集中链接了第二阶段和第三阶段试验,基于主要干预措施、待治疗的医疗状况和时间安排。由于两个原因,这并不是一个简单的实践:oAACT数据集仅仅是报告的试验方案的数字化。因此,大多数变量没有很好的编码,并且有非通用条目。尽管报告结果的试验干预和条件的信息相当完整,但不同报告方对报告表格中的单元格有不同的解释。例如,在试验干预的规范中,在许多情况下,试验中涉及的所有药物都被插入一个细胞中,而没有具体说明这些药物是组合给药还是单独给药给不同的试验组。通常,没有具体说明哪种药物构成了实验治疗,而不是对照。因此,不可能机械地确定试验的主要实验干预。作为另一个并发症,许多药物以不同的名称出现在数据中;有些时候,药物是根据化学成分来参考的,而另一些时候是根据其商业名称来参考的药物开发的过程不是线性的,因为我们通常不会先进行一个II期试验,然后再进行一个III期试验,然后再请求FDA批准。在大多数病例中,有许多II期试验着眼于类似但可能略有不同的观察/条件,例如不同的药物剂量、可治愈患者的不同特征或不同的对照干预。

34
大多数88 在职认证  发表于 2022-6-24 06:24:23
这些II期试验之后通常会有更多的III期试验,这些试验具有类似的干预措施/条件,但规格略有不同。我们通过以下方式解决这些障碍。我们逐一阅读了数据集中所有II期试验的方案,其中至少报告了一个p值,并且在2018年12月底之前完成。由于对完成日期的限制,可能会在2019年8月之前进行后续III期试验。根据方案,我们确定了1773个II期试验的主要实验干预,即疗效和安全性有待确定的主要药物或药物组合。我们使用由策展人确定的医学主题词(MeSH)术语来表示临床试验的医疗状况。ZF网页可搜索[21],忽略了过于泛化的类别,如简单的“疾病”。如果我们可以将II期试验与至少一个III期试验联系起来,我们认为II期试验将继续进行。也就是说,如果我们发现数据库中至少有一个III期试验(无论是否报告相关结果)符合以下所有标准:1。干预:所有药物作为II期试验中至少一种确定的主要干预措施的一部分,均列为III期试验中列出的干预措施。这要么是完全相同的名称,要么是报告缔约国称为同一药物的同义词。条件:与II期试验相关的所有网格条件也与III期试验相关。3、时间安排:第二阶段试验的开始日期早于第三阶段试验的开始日期。例如,这种联系并不完美,因为它忽略了第二阶段试验中的所有药物是否都是同一组中一个组合的一部分。

35
何人来此 在职认证  发表于 2022-6-24 06:24:26
此外,我们没有考虑试验的其他细节,如合格患者的确切人数。然而,鉴于数据的局限性,该程序似乎相当准确。我们设法将我们有限数据集中33.3%的行业资助的II期试验与至少一个III期试验联系起来。这些数字与先前研究[4]和FDA网页[52]中报告的数字一致。然而,对于非行业赞助的试验,第三阶段的报告非常少,我们只能在第二阶段试验中找到18.0%的第三阶段匹配。鉴于这一数字较低,且非行业赞助商的第二阶段和第三阶段分布之间无显著差异,我们仅调查行业赞助试验的选择。请注意,标准3仅考虑试验的开始日期。要求第二阶段试验的完成日期早于第二阶段试验的开始日期似乎更为直观。事实上,我们的大多数相关试验也完全可以缓解这种更严重的状况。然而,在某些情况下,这种情况过于严重。也就是说,一些第三阶段试验在相应的第二阶段试验完全完成之前开始。例如,一些关于长期影响的第二阶段结果可能仍然悬而未决,但收集到的证据已经足够有力,调查人员可以开始进行aphase III试验。此外,我们认为报告的开始日期更可靠。

36
能者818 在职认证  发表于 2022-6-24 06:24:30
为了满足及时报告结果的要求,责任方可能有动机报告比实际完成日期晚的完成日期。网状条件固定效应和市场规模数据为了解释不同类型条件下治疗药物的潜在系统性差异,我们将条件固定效应纳入选择性延续的选择函数估计中。为此,我们根据数据库管理员确定的网格术语,将每个试验分配到15个最大类别的条件中的一个(根据我们数据中的频率)。这些类别显示在表S8中。一些高度重叠的类别已合并。不能分配给特定组或属于较小组的试验构成省略类别。如果一项试验涉及多个类别,我们将其分配给预期市场规模最大的类别。为了获得新开发药物预期市场规模的代理,我们根据医疗保险和医疗补助服务中心提供的信息,评估了2011年现有药物的医疗保险D支出https://www.cms.gov/Research-StatisticsData-and-Systems/Research-Statistics-Data-and-Systems.html.D部分处方药事件(PDE)数据是为一个子集提供的(~ 70%的医疗保险福利。我们手动将1056种上市药物(其中420种医疗支出最高)归类为治疗条件的网状类别。总体而言,这些药物占数据集中药物支出的90%。表S8还显示了按类别划分的总支出。临床试验背景。政府临床试验。gov是志愿者临床研究的在线注册中心。

37
nandehutu2022 在职认证  发表于 2022-6-24 06:24:33
该网站由美国国立卫生研究院(NIH)国家医学图书馆(NLM)与美国食品和药物管理局(FDA)合作维护。它于2000年2月成立,旨在提高临床研究的透明度。最初,注册中心只包含测试新实验药物对严重或威胁生命的疾病或状况的疗效的试验,注册主要是自愿的。有关注册表历史、相关政策和法律的更多信息,请参阅https://clinicaltrials.gov/ct2/about-site/history(2017年6月23日查阅)。2007年,通过FDAAA修正法案(FDAAA)[53],试验登记的要求大幅延长。尽管2017年1月对这些规则进行了更准确的重新定义[54],但在下文中,我们将参考FDAAW第801节的规定,该规定是我们分析中绝大多数数据生成时生效的立法。根据https://clinicaltrials.gov/ct2/manage-recs/fdaaa(2017年6月23日访问),受本法规影响的试验必须满足以下主要标准:o2007年9月27日之后开始,或在该日期或之前开始,截至2007年12月26日仍在进行;o药物、生物制品或医疗器械的对照临床研究,而非阶段性试验和小型可行性研究;o该试验在美国有一个或多个地点,或涉及美国制造的药物、生物制品或医疗器械。如果这些标准适用,责任方(即试验的发起人或主要研究者)必须在第一个参与者注册后21天内注册试验并提供所需信息。

38
大多数88 在职认证  发表于 2022-6-24 06:24:36
此外,如果受调查的药物、生物制剂或器械获得FDA批准、许可或批准,责任方必须在完成日期后的十二个月内提交一些基本的试验总结结果。自2008年9月以来,这些提交的结果可在临床试验中公开获取。ZF结果数据库,以实现更高的透明度。然而,立法中存在一些漏洞[18];例如,未明确规定所需的结果详细程度,未经批准产品的第一阶段试验和试验可豁免。在所有其他不符合州标准的情况下,注册和报告结果是自愿的。FDAAA对不符合规定的行为规定了每天高达10000美元的罚款。然而,尚未发生任何强制措施【40、55–57】。评估符合率并不容易,因为FDAAA立法中的前述豁免和不精确性使确定哪些试验适用变得复杂。一项早期基于算法的研究[55]表明,只有13.4%的适用临床试验在临床试验中注册。2008年至2012年间,ZF以一种快速的方式报告了结果,在任何时候只有38.3%的人报告了结果。然而,在对一个试验样本的手动审查中,同一作者【55】发现,他们基于药物批准状态假设的方法往往低估了报告率。

39
nandehutu2022 在职认证  发表于 2022-6-24 06:24:39
后来的研究记录了329项由行业赞助的美国II-IV期试验的样本,这些试验于2007-2009年完成或终止,是临床试验的结果报告率。2014年12月前,gov的报告率为58%[58],2017年9月前的两年内,适用试验的总体报告率从58%提高到72%,这不是因为害怕制裁,而是因为公众对责任方施加压力[56]。自2017年1月起,改进后的“最终规则”已经到位(因此,它不会影响我们分析的绝大多数审判),解决了许多漏洞,并扩大了2007年立法的范围[54]。然而,美国食品和药物管理局监管合规性的努力仍然非常有限[40、56、57]。除了披露授权之外,FDAAA还提高了公众对临床研究透明度重要性的认识,并领导许多大型制药公司和研究机构制定内部披露政策【55–57】。对FDAAA最终规则合规性的最新完整评估显示,64.5%的行业赞助试验报告了任何结果,50.3%的试验完全符合规则;也就是说,在主要完工日期后一年内报告结果【40】。考虑到FDAAA法规的执行缺失,缺乏报告并不一定意味着责任方打算隐瞒其结果,而是意味着他们没有花时间完成冗长的报告过程。

40
可人4 在职认证  发表于 2022-6-24 06:24:42
有鉴于此,尽管有法律要求,但为了我们的分析目的,结果报告应被视为最有价值的。医学文献中的一些研究从不同方面评估了向注册中心和结果数据库报告的数据的质量,例如,关于科学领导力的信息【59】、报告的主要结果的一致性【60,61】、与学术期刊上发表的结果的比较【58,62】以及个人参与者数据(IPD)的提供【63】。所有这些研究,以及数据库管理员的总体评估【19,20】,都发现了不明确的结果,并看到了改进的空间【64】。处理AACT数据时最大的挑战是,作为试验协议的数字化,大多数变量都有非通用条目,其中许多包含大量文本。此外,报告方并不总是以相同的方式解释报告表格中的不同单元格。例如,在报告试验干预时,在许多情况下,试验中涉及的所有撤回都被插入一个单元格中,而没有具体说明它们是作为组合还是分别给予不同的试验组。此外,提交报告的缔约方以不同的方式表明,哪种药物构成实验治疗,哪种药物构成对照。通常,可以在协议的其他部分找到澄清。许多自我报告的变量也出现了类似的问题。尽管对于大多数试验来说,报告的内容是完整的,并且嵌入在上下文中的完整研究协议给出了一个清晰的画面,但不同的当事人通常在不同的单元格中报告相同的信息。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-1 03:02