几则有趣的医学统计小故事 - 计量经济学与统计软件

8关注
1099
粉丝

大师

21%

还不是VIP/贵宾

-

TA的文库 其他...

龟宝的档案室

0%

威望: 3 级
论坛币: 793110 个
通用积分: 21961.1155
学术水平: 2211 点
热心指数: 2133 点
信用等级: 1424 点
经验: 978890 点
帖子: 10001
精华: 25
在线时间: 4757 小时
注册时间: 2012-7-27
最后登录: 2020-12-21

胖胖小龟宝 发表于 2014-7-24 08:57:55 |显示全部楼层 |坛友微信交流群

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

医学统计学是一门很奇妙的科学。要说它简单吧，其实也挺简单的，常见的统计方法也就十余种，在教科书上都能找到，只要熟练掌握了，虽不敢夸下海口说可以“以秋风扫落叶的气概横扫四海之内的杂志”，但足以轻车熟路地应付99%的科学研究。要说它复杂吧，也挺复杂的，毫不夸张地说，绝大部分国内期刊，甚至在很多低分SCI杂志上，乱用统计学的现象多如牛毛。

很多同行在学习医学统计学时，都在抱怨自己很难走出“一学就会，一会就用，一用就错，一错就懵”的怪圈。究其原因，主要是部分同行学习医学统计学时都抱着一副“依葫芦画瓢”的态度，试图“套用统计学方法”来解决自己面临的问题，而不去仔细思考统计学方法的来龙去脉。本文拟谈几则与医学统计学相关的故事，希望能帮助大家从宏观上正确认识医学统计学这门科学。

1、两个指标诊断疾病的问题

路人甲做了一个研究，旨在比较两个指标（A和B）对肝癌的诊断价值。路人甲以A和B的参考范围上限作为诊断界值，得出了A和B在该界值下对应的诊断敏感性和特异性。结果表明，A的诊断敏感性为0.80，特异性为0.90；B的诊断敏感性为0.85，特异性为0.87。路人甲很快撰写论文报道了自己的研究成果，指出B诊断肝癌的敏感性高于A，而特异性低于A。

路人乙是这篇文章的审稿人，当他看见这个结论后，脸色铁青，毫不犹豫地在审稿意见中写道：就敏感性而言，B高于A；就特异性而言，A高于B。诊断敏感性和特异性与所采用的界值密切相关，作者得出的敏感性和特异性仅仅代表了一个诊断界点下面的诊断效能，无法从全局上反映A和B的诊断价值。文章的结论到底是想说明A优秀还是B优秀呢？Reject!

这个故事说明：统计指标选错了，统计出来的东西往往难以“自圆其说”。

稿件被退了，路人甲有些许郁闷。经过认真学习科研设计与统计学知识后，路人甲终于明白了一个问题：两个指标诊断性能的比较是不能比较敏感性和特异性的，而应该比较ROC的曲线下面积，因为曲线下面积才是衡量整体诊断效率的最佳指标。路人甲很快绘制了ROC曲线，统计结果表明，A的曲线下面积为0.80，B的曲线下面积为0.82。路人甲欣喜若狂，赶紧动笔写论文，并且理直气壮地给文章定了一个结论：B的诊断效率是优于A的，其理由就是因为B的曲线下面积大于A。

路人丙是这篇文章的审稿人，当他看见这个结论后，脸色铁青，毫不犹豫地在审稿意见中写道：从表面上看，B的曲线下面积高于A，但是导致这种差异的原因有两种，一种是抽样误差，一种是试验效应，即B确实是高于A的。你怎么能确定这不是抽样误差呢？在统计学上，要确定0.82是否高于0.80，就一定要经过统计学检验的。Reject!

这个故事说明：在医学科研中，没有经过统计学检验的结论多半是不科学的。

稿件被退了，路人甲很是郁闷。他吸取了经验教训，自学了很多统计学理论，终于弄清楚了采用何种方法去比较曲线下面积。接下来的事情就是改稿，然后另选杂志继续投稿。路人甲在文稿中特别注明了，曲线下面积是经过了统计学检验的，B的曲线下面积（0.82）与A的曲线下面积（0.80）之间的差异是有统计学意义的，而且还大摇大摆地在后面加了个括号，写明P=0.01。路人甲仰天长叹了一口气，很郑重地给自己的研究下了结论：本研究表明B的诊断效率是优于A的。

路人丁是这篇文章的审稿人，当他看见这个结论后，脸色铁青，毫不犹豫地在审稿意见写道：B是常见的诊断指标，其检测结果并不对临床医师设盲，在很大程度上可以检测影响临床医师对疾病的诊断。A是新进发现的诊断指标，其结果完全对临床医师设盲，不可能影响医生的诊断。所以作者的结论（B比A优秀）是不可靠的。

再说得通俗点，如果把A和B分别理解成法庭上的原稿和被告，那B无疑既充当了辩护律师，又充当了法官的角色。在这种情况下，A输掉了官司是十分正常的。如果换一个公平的、独立的法官来断案，B能否胜出就不好说了。Reject!

这个故事说明：实（试）验设计有缺陷，再优秀、再正规的统计学方法也于事无补。

稿件又被退了，路人甲的心情极度郁闷。思来想去，决定把实验重做一遍，让A和B在一个公平的环境中比较（为便于描述，此处忽略医学伦理学问题）。在新开展的研究中，A和B都是对临床医生设盲的，不可能影响金标准。这下A和B的比较结果应该比较可靠了吧，路人甲又仰天长叹了一口气，感觉自己如释重负了。

科研太折腾人了，太不容易了！统计结果很快出来，A的曲线下面积是0.80，B的曲线下面积则变成了0.77，经过统计学检验后发现，A的诊断效能确实是高于B的。整个研究的试验设计滴水不漏，统计学过程天衣无缝，我就不信还有人敢拒这篇稿件，路人甲心中开始暗喜。

路人戊是这篇文章的审稿人，当他看见这个结论后，脸色铁青，毫不犹豫地在审稿意见写道：A和B的检测并不矛盾，他们之间的关系不应该是竞争关系，而应该是合作关系。读者最关心的问题显然不是A和B“孰强孰弱”的问题，虽然这个问题有一定的专业价值。

如果我是坐诊医生，我会说：A和B谁强谁弱关我什么事？总之来一个病人我就A和B都检测，我的患者都不差钱！作者的研究重点应该是明确A和B能否互补，联合使用是否能有助于提高诊断准确性的问题，而非A和B“孰强孰弱”的问题。简单地说，就是明确1+1是否大于1的问题。Reject!

文章又被拒稿了。

这个故事说明：研究方向错了，即使是无懈可击的实（试）验设计和天衣无缝的统计方法，也是无济于事。

2、降糖药的研究、学生自杀事件

路人甲长期从事降糖药的研究，最近他发现了一种药物，可以降低患者的血糖。为了评价该药的降糖效果，路人甲费尽心机地设计了一个看似完美的随机对照试验（RCT），为了保证结果可靠，路人甲严格遵守RCT设计准则，包括随机、双盲、安慰剂对照等措施。

研究结果表明，实验组和对照组在接受药物治疗前血糖浓度的均值都是10mmol/L，差异无统计学意义，表明两组研究对象的基线特征具有可比性。对照组未经任何药物治疗（为便于描述，此处忽略医学伦理学问题），血糖浓度还是10mmol/L；实验组经过药物干预后，血糖浓度变成了9mmol/L。

统计学检验结果表明，实验组和对照组治疗后的血糖浓度的差异是有统计学意义的（P<0.01）。路人甲赶紧撰写论文，并毫不客气地给研究下了个结论：该药可以降低患者血糖。

路人乙是这篇文章的审稿人，当他看见这个结论后，脸色铁青，毫不犹豫地在审稿意见写道：却要确实可以降低血糖，但是一个只能降低1mmol/L的降糖药有何临床价值？Reject!

这个故事说明：有统计学意义不一定有专业意义。

路人甲做了一个调查，同处一地的A和B两所中学，各有1000名学生，过去的一年，A校有5名学生自杀（自杀率为0.5%），B校没有学生自杀（自杀率为0%）。统计学结果表明，两校自杀率的差异无统计学意义（P=0.07，Fisher确切概率法，笔者进行了统计）。于是路人甲得出结论：A和B两校的自杀率是没有差异的，A校5名学生自杀纯属小概率事件。

路人乙是这篇文章的审稿人，当他看见这个结论后，脸色铁青，毫不犹豫地在审稿意见写道：5个鲜活的生命就这样没有了，5个家庭就这样毁了，你却告诉我这纯属小概率事件，你就不怕“人神共愤”吗？Reject!

这个故事说明：有专业意义不一定有统计学意义。

看完这两个故事，也许有的读者会有疑问：前面还强调“没有经过统计学检验的结论多半是不科学的”，为什么这里却淡化统计学的作用呢？对此，笔者认为：统计学仅仅是一种工具，用得好当然可以事半功倍，但是在某些情况下，工具往往就是个累赘，也许徒手干活才是最好的选择。

3、如何看待统计学结果

路人甲经历数十年的研究，动用了各种高精尖的研究手段，发现了一个新的蛋白（命名为蛋白A）。在肝癌患者中展开的研究表明，蛋白A和甲胎蛋白（AFP）有很好的相关性，其相关程度之好，几乎可以用“一塌糊涂”来形容，相关系数达到了0.99（P<0.0001）。路人甲欣喜若狂，尽管蛋白A的检测过程还十分繁琐，检测费用还十分高，但是路人甲还是把持不住内心的激动，日夜兼程地撰写论文，宣称自己找到了一个新的肝癌标志物。

路人乙是这篇文章的审稿人，当他看见这个结论后，脸色铁青，毫不犹豫地在审稿意见写道：统计结果表明蛋白A和AFP的相关性十分明显。如果是这样，在临床实践中，通过检测AFP完全就可以得知蛋白A的浓度了，蛋白A在肝癌中的临床价值完全可以被AFP代替，还不说蛋白A的检测过程繁琐，费用太高的问题，你说蛋白A还有什么价值？ Reject!

这个故事说明：统计学阳性的结果未必是“好结果”。

路人甲发明了两套诊断肺癌的方案，分别命名为A和B。为了明确这两种方到底谁“更胜一筹”，路人甲找了100个肺癌患者和100个疑似肺癌患者（结核、肺炎等），分别用A、B两套方案去进行鉴别诊断。在200个研究对象中（100个肺癌和100个非肺癌），方案A正确了100回，准确率50％，方案B仅仅正确了50回，准确率仅为25%。

卡方检验表明：方案A和B准确率之间的差异有统计学意义（P<0.01）。很明显，方案A的准确性要高于方案B。路人甲赶紧发表论文，指出：方案A诊断肺癌的准确性优于方案B。

路人乙是这篇文章的审稿人，当他看见这个结论后，脸色铁青，毫不犹豫地在审稿意见写道：如果我（审稿人本人）是坐诊医生，他就会反着看方案B的结果，凡是方案B认为是肺癌的，他就认为病人不是肺癌；反之亦然。这样下来，200个病人中，方案B应该能正确识别150个人，准确率为75%。

统计学结果表明，方案B的准确率（75%）是高于方案A（50%）的，所以真实的情况是方案B优于方案A。实际上，当面对这200名患者的时候，随便到城隍庙找个瞎子来“算命（猜患者是否患病）”，按照统计学理论，准确率也应该是50%，方案A的价值可以说是“一无是处”。Reject!

这个故事说明：统计学阴性的结果未必是“坏结果”。

还是那个AFP与蛋白A的例子。路人甲发现蛋白A和甲胎蛋白（AFP）之间有很好的相关性，也开始撰写论文，但是他的结论并不是“蛋白A是诊断肝癌的标记物”。他认为，既然蛋白A与AFP之间有很强的相关性，那提示AFP和蛋白A之间可能存在十分密切的“调节”或者“被调节”关系。

最终，路人甲围绕“蛋白A与AFP之间的调节或者被调节关系”做了很多分子生物学试验，指出蛋白A是调节AFP表达的唯一（注意“唯一”这两个字）因子，因此二者之间才会呈现如此强烈的相关性。这是一项基础研究，虽然未能直截了当地地指出蛋白A的临床价值，但是这个研究形象生动地讲述了一个完整的分子生物学事件，丰富了我们对于肝癌发生与发展分子机制的认识。最终，论文“堂而皇之”地accept了。

这个故事说明：同一统计学结果，从不同的专业角度去解释，结论是完全不同的。

★这三个故事说明：对统计学结果的解读一定要结合专业！从专业中来，到专业中去！

楼主的话：这篇文章是在一个医学论坛里看到的，虽然用到的例子都是医学上的，但其实他说的很多观点在日常我们做商业统计、经济统计甚至是理论统计中也是通用的。很早就听说过一句话：统计是“圆”的，这个圆即使条条大路通罗马，也有需要自圆其说的双重含义。我想转载到此处，也希望大家能够一起阅读一下！

帮助人大经济论坛推广，复制贴子内容（带人大经济论坛网址）并发到其他论坛和网站；或点击贴子标题后的“推广有奖”，把本贴推荐到QQ群或自己的微博（最好@人大经济论坛），然后跟贴贴出链接或截图，证明已作推广的，将获得如下论坛币的奖励！（大家一定要把群现有人数或微博粉丝人数截屏出来哦~不然只能奖励10个币哦）

活动奖励方式（同一个群或微博或网站分享多次算一次，所有截图均需显示分享人数，否则默认低档奖励）：
1.凡分享的QQ群，人数在100人以下的，视情况奖励10-20论坛币；100-500人的，奖励20-50论坛币（每群限奖励一次）；500人以上的奖励50-100论坛币。
2.凡分享到微博，您的粉丝在100人以下的，视情况奖励10-20论坛币；100-500人的，奖励20-50论坛币（每微博限奖励一次）；500人以上的奖励50-100论坛币。
3.凡分享到其他网站（包括校内网等），帖子保留一天以上的（24小时后截图），奖励50论坛币

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

关键词：医学统计小故事 Reject 医学统计学统计学方法科学研究小故事统计学

几则有趣的医学统计小故事 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

高级学术勋章

初级学术勋章

初级热心勋章

初级信用勋章

中级信用勋章

中级学术勋章

中级热心勋章

高级热心勋章

高级信用勋章

特级热心勋章

特级学术勋章

特级信用勋章

本版微信群

几则有趣的医学统计小故事 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

高级学术勋章

初级学术勋章

初级热心勋章

初级信用勋章

中级信用勋章

中级学术勋章

中级热心勋章

高级热心勋章

高级信用勋章

特级热心勋章

特级学术勋章

特级信用勋章

本版微信群

扫码加我拉你入群