JAMA:p值检验,你用对了吗?
2016-03-22 佚名 生物谷
最近一篇关于p值检验的总数统计总结了1990至2015以来的多篇生物医学文献,发现被错误理解的统计数据越来越多,报导p值时没有同时报导应效应量和置信区间指标。斯坦福大学医学院的研究人员做了一项针对数百万计的期刊文章的研究统计。研究表明,文章作者报告p值的越来越多,但他们误解了p值的含义。p值是报告科学结论是否真实的统计学意义的概率值。研究人员发现,因为p值常被误用,对p值使用的增多并不代表生物医学
最近一篇关于p值检验的总数统计总结了1990至2015以来的多篇生物医学文献,发现被错误理解的统计数据越来越多,报导p值时没有同时报导应效应量和置信区间指标。
斯坦福大学医学院的研究人员做了一项针对数百万计的期刊文章的研究统计。研究表明,文章作者报告p值的越来越多,但他们误解了p值的含义。p值是报告科学结论是否真实的统计学意义的概率值。
研究人员发现,因为p值常被误用,对p值使用的增多并不代表生物医学研究或数据分析水平的提高。
"研究人员通常对p值的使用技术不佳,用有偏见的方式使用,因此变得非常具有误导性。"斯坦福Meta-联合创新中心主任、疾病预防和健康教授、医学博士John Ioannidis说。这项研究将发表在3月15日JAMA杂志中。
研究小组用自动搜索文本挖掘搜索生物医学数据库MEDLINE和PubMed Central,寻找数百万计文章摘要中的p值检验,并手动筛查1000份摘要和100份全文。搜索的文章都是1990年到2015年发表的。
p值的普遍滥用——经常给可信的研究带来错误——逐渐在学术界变为一件尴尬的事情,包括心理学和生物医学等领域。
比如对Nature,STAT和FiveThirtyEight的声明就报导了p值的漏洞。3月7号,美国统计协会发表了一份声明警告他们的滥用。其中声明附带的一则评论是波士顿大学流行病学家KennethRothman的,他说:"这些问题很是致命的,可以肯定正因为科学家(和编辑、监管机构、记者和其他人)用显著性检验解释实验结果,并因此没有得到最有帮助的东西。"
研究小组从数百万生物医学文章摘要中统计得出,p值的报导从1990年的7.3%上升到2015年的15.6%。医学核心期刊文章摘要中有33%使用p值,而随机对照临床试验的一部分中,这个数据竟达到将近55%。
P值的含义?
P值是用来说明一个基本统计学问题。假设一个临床试验比较两种药物的治疗效果,药物A似乎比药物B的疗效高10%。这可能是因为药物A确实更有效10%。或者在那次试验中让药物A显得更加有效。简单来说,是药物A幸运而已。那你怎么知道到底是哪种情况?
P值评估的是"由于零假设是真,还得来这样的数据"的可能性有多大——在这个例子中,零假设为真即药物A和B的药效没有区别。所以举例来讲,如果药物A和B的药效相同,而你进行研究比较它们,得到p值是0.05,意思就是说药物A有5%的可能性比药物B的药效强10%或更多。
"P值的确切定义是",该小组研究人员Ioannidis说,"如果零假设是正确的,观察到这次实验结果或一些更好结果的可能性。不幸的是,许多研究人员都误以为p值代表零假设不正确的可能性或结果是真实的可能性。"
P值<真相
"P值并不是告诉你某些事情是否是真实的。如果你得到的p值为0.01,意思并不是说某些东西不真实的可能性有1%",Ioannids补充说,"p值为0.01可以代表结果20%的真实性、80%的真实性或者0.1%的真实性——所有这些都可以有相同的p值。仅仅p值本身并不能告诉你结果的真实性。如果想真正评估结果的真伪性,应该用错误发现率和贝叶斯因子计算。"
尽管p值的使用很受限,现在它竟然成为一个好的实验设计的标志。Ioannids与他的团队发现,事实上摘要中的p值被武断地定义为"统计显著性"——通常设定为小于0.05。团队发现96%的有p值的摘要都至少有一个这样的"统计显著性"p值。
Ionnidis说:"这表明选择压力倾向于更好的结果。事实上有这么多显著性结果是完全不现实的,不可能96%的检验假设都是显著性的"。
有多大影响?
虽然报导实验结果具有统计性显著的文章越来越多,但很少有文章报导治疗效果与空白对照组或安慰剂组有多大差别。比如假设有10000名患者服药后在病症上跟另外10000名未服药的患者有平均提高,但只提高了1%,那么从p值得来的统计性显著就没有什么实际意义。
796篇手动审查的论文中,只有111篇报导了效应量,18篇报导了置信区间(衡量效应大小的不确定性)。没有文章报导贝叶斯因子或错误发生率,这两个值是Ionnidis说更适合告诉我们是否观察到的是否真实的指标。不到2%的摘要同时报导了效应量和置信区间。
在随机抽取的99篇全文文章中,有55篇至少报导了一个p值,但只有4篇报导了所有效应量的置信区间,没有一篇使用贝叶斯方法,只有一篇使用了错误发生率。
Ioannidis主张用更严格的方法分析数据,"改进的方式,是p值应该更选择性地使用。使用时同时报导应效应量和置信区间。使用贝叶斯方法或错误发现率回答问题是一个很好的注意,比如'这个结果是真实的可能性有多大?"
小提示:本篇资讯需要登录阅读,点击跳转登录
版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
我看完感觉以前都白学了
107
great article
144
很好的文章,要深刻理解统计学意义
143
很有用,学习了
145
统计不懂
122
蒙了,统计
92
统计难
56
主要是临床医生统计学功底不足
100
值得学习
81
好好学习
68