P值小于等于0.05是否真有统计学意义

在科技论文中少不了统计,而统计中又常常避免不了值,一般认为P≤0.05或者P≤0.01有显著性差异,我们的研究有统计意义。事实是真的这样吗?其实有时如果P≤0.05也并非真正有统计意义。以下是科研动力译自Nature的一篇文章:Scientific method: Statistical errors,相信您看完之后会有些许收获。

美国弗吉尼亚大学的 Matt Motyl 于2010进行了一项近2000人的研究他发现政治温和派似乎比左翼或者右翼人士看到更多的灰度。这个结果太有意思了,而且 Motyl 很坚信这个结果,因为数据统计显示结果差异性很显著,P=0.01。此时 Motyl 也有点小小的自得,自己的研究可以发表在高影响因子期刊了,离自己少年成名也不远了。

可惜欢乐总是短暂的,快乐仅持续了1天。他的导师 Brian Nosek 让他进行了重复实验,重复实验的结果P值变成了0.59。这就没有差异显著性了,因为统计学上认为P≦0.05才有统计学意义。人生就这么喜怒无常,现实击碎了 Motyl 的幻想。

Motyl 错了吗?问题出在何处?为何第一次实验统计学有显著性差异,而重复实验却变成了统计学无显著性差异?原来问题不在于数据和Motyl的统计分析。主要问题在于P值,大多数学者认为P值并不可靠也不客观。芝加哥罗斯福大学的经济学家 Stephen Ziliak 甚至认为P值根本不做人事,因为这鸟根本不会做人事。

实验重复性对于很多科学家很是个事儿。2005年加利福尼亚斯坦福大学的流行病学家 John Ioannidis 认为现在大多数所发表的论文都是有问题的。实验的重复性使科学家们要重新考虑他们该如何评价结果了。

同时统计学家们正在寻找一个更好的统计数据的方法,以帮助科学家们避免遗漏重要的信息或者得到错误的结果。斯坦福大学的医生和统计学家Steven Goodman说「现在是需要改变统计理念的时候了,以前的金标准也不再是神,它们是我们所采用的统计方法决定的」。

P值的断章取义

P值出现的近90年来,统计学家们对P值批评就没停止过。有人甚至把P值被比作即恼人又不赶不走的蚊子,有明显问题而每个人都忽略的皇帝的新衣以及强奸了科学但又没结果的强奸犯的工具。有人建议重新命名这个计算P值的统计方法学为「统计假设推断检验」,也许更能代表P值的本质。

具有讽刺意味的是英国的统计学家 Ronald Fisher (大拿啊)在20世纪20年代第一次引入P值时,他老人家并未想把P值作为一个解析结果决定性指标。他本想提出一个判断数据是否有显著的一个非正式简单指标,看一下结果是否值得再研究一下。大拿 Fisher 认为应先进行一个实验,看结果与可能产生的随机结果是否一致。研究人员应首先提出一个「零假设」,然后验证两组之间有无相关性或者差异性。假设这个零假设是真实的,那么计算得到的结果与事实的符合概率,这个概率就是P值。Fisher老人家同样认为,P值越大结果越与事实相距更远。

对于P值的精确性,Fisher 认为它是变化的而固定不变的,P应是结合数据分析结果和背景知识产生科学结论。但是P很快就卷入了一场风波,事情还要从另两位统计界大拿波兰数学家 Jerzy Neyman 和英国统计学家 Egon Pearson 说起。20世纪20年代大家正在寻找一个循证决策更严谨客观的指标。Neyman 和 Pearson 提出了数据分析的可选择框架,包括统计强度,假阳性和假阴性,以及其它我们现在统计课上经常听到的很多统计学概念。但是他们刻意忽略了P值,因为这两位和 Fisher 不怎么对付,相互看谁谁也不顺眼。

双方就开始掐架,Neyman 称 Fisher 的数学一无是处,而 Fisher 认为 Neyman 做法很幼稚,简直是对西方的自由科学是个危害。他们掐架归掐架,其他研究人员看不下去了,大家还等着一个统计学指标呢,到底该用哪个啊?这些研究人员的耐心也有限,于是乎他们就不管上面三位统计大拿了,开始自己为研究人员编写统计手册。这些研究人员也很乖,编写统计手册的时候谁也不得罪,把上面三位的统计理念进行了融合。这也就成了P值为0.05代表了统计学有显著性差异。这些人还挺聪明的,但是是个小聪明,因为他们并不是统计学家,没能完全理解 Fisher 和 Pearson 等人方法的内涵就进行生搬硬套。因此现在Goodman说「现在P值的使用方法完全背离了它曾经的意义」。

P值到底意味着什么

回过头来再看看 Motyl 有关政治倾向的研究。多数科学家看到他原始的P值是0.01,认为他的结果只有1%的可能性是假的,但是他们错了。P值并未说它能总结数据,假设一个特定的零假设。P值也不能反向推导,不能说明事实的真实情况。揭示真实情况还需要更多的信息,即真实效应实际存在的概率。忽略这个就像有天早晨起来发现自己头疼,然后就认为可能得了一个罕见的脑部肿瘤。可能吗?可能是可能,但是概率太小了。大清早的头疼您老人家不应先排除一些常见头疼的原因啊,昨晚是不是撸啊撸了,搞的自己睡眠差了。晚上睡觉不老实了,踢被子了,感冒了。这些才是比脑瘤更可能的因素,不排除这些就提出一个骇人听闻的假设,吓尿了。值得一提的是越是耸人听闻的假设越不靠谱,如心灵感应,外星人,顺势疗法,特异功能等等更难以置信的的假设,不管最终P值是多少,假阳性的可能性都很大。

这些都是艰涩的概念,但是一些统计学家试图提供经验转换的一般规律(如下图)。根据一个广泛使用的计算方法,P值为0.01时代表假阳性概率至少是11%,而P值为0.05时这种机率就达到至少29%。

图中的三个例子表明即使计算得出的P值有显著性差异,实验结果也可能具有很高的不可重复性。

因此 Motyl 的发现假阳性的概率至少1/10。同样重复实验得到同样非常显著性结果的可能性也不是99%,最多是73%,或者仅有50%。换句话说,他实验的可重复性如同掷硬币的概率差不多,本想得到字面,可是却得到的是花面。唉,猜中了开头,却猜不到结尾。

批评家们也哀叹P值成了鼓励混乱思维方式的元凶。一个典型的例子是P使人们偏离了现实的真实情况。2013年一个有关1万9千多人的研究表明网恋的离婚可能性较小(P<0.002),婚姻满意度更高(P<0.001)。这结果真是吸人眼球,但是效果却很小:网恋把离婚率从7.67%降低到5.96%,而幸福感根据7分表与现实恋爱差别并不明显,网恋婚姻幸福感是5.64,现实恋爱婚姻幸福率是5.48。澳大利亚墨尔本 La Trobe 大学的荣誉心理学家Geoff Cumming说「小P值忽略了更大问题,是追求P值有显著性差异的后果。显著性差异并不代表实际情况。我们应该问问有多大的影响呢?而不是有影响吗?」

也许更严重的是事实是我们自欺欺人,宾夕法尼亚大学的 Uri Simonsohn 心理学家和他的同事给现在这种追求P值显著性的行为起了名字,叫「P-hacking」(P值绑架?P值篡改?),也叫数据挖掘,数据窥探,数据钓鱼,追求显著性和不正当统计(double-dipping)。Simonsohn 说「P值篡改就是试图反复计算,潜意识里想最终得到自己想要的结果。」这可能是在线都市词典收录的第一个统计词汇,还有例句「那个发现好像是通过P值篡改得到的哦,作者去掉了一个条件,最后P<0.05」;或者「她就是个P值黑客,常常收集数据时就对数据进行人为的筛查。」

这种行为的后果就是把应带着质疑态度探索性研究变成了预示到结果的确定性研究,但是结果又不能重复。Simonsohn 模拟实验表明数据分析的些许改变就能增加假阳性率到60%。在当今在繁杂的数据背后发现少量阳性结果本来就很难,此时研究人员为了得到阳性结果,就更易出现P值篡改。Simonsohn 认为虽然P值篡改很难估计有多普遍,但是这个问题已很严重了。他发现很多发表的心理学论文中P值都十分可疑,大多都在0.05左右,有点像研究人员不断的尝试P值,直到达到显著性差异水平。

改进P值的尝试

抛开对P值的批评,现在统计方法的变革正在缓慢的进行。Goodman说「自从Fisher, Neyman 和 Pearson提出他们各自的理论后,统计学基本框架就没怎么变过。 」明尼阿波利斯市明尼苏达大学的心理学家 John Campbell 在1982年就抱怨过这个问题,当时他还是 Journal of Applied Psychology 的编辑。他说「让作者远离P值了几乎不可能,小数点后的0越多,作者就抓P值更紧。」马萨诸塞州波士顿大学的 Kenneth Rothman 在1989年开创了 Epidemiology 杂志,他尽力劝阻作者在该杂志上发表文章不要使用P值。大家也能接受,毕竟想投杂志一切应当按照杂志的要求来办。但是当他2001年离开杂志后,P值又在 Epidemiology 上死灰复燃了。

最近 Ioannidis 检索 PubMed 中数据以研究不同学科的作者们如何使用P值和其他统计方法。他发现「只要看一下最近发表的文章就会发现P值是多么多么的流行」。

任何改革都需要横扫一个根深蒂固的文化。需要改变统计学的教学,教大家如何分析数据,如何解释和报道结果。Goodman 说「我们所发现的有太多的假阳性了,这给我们敲响了警钟。」不过好在至少现在研究人员也逐步认识到P值的问题了,但是Ioannidis 等人认为理论统计学和现实应用之间的联系还存在着脱节,Goodman 说「统计学家们预言的问题就是我们当前看到的问题,我们还没有找到全部的解决方法。」

不过统计学家提出了一些可能有帮助的解决方案。Cumming 认为为了避免考虑结果的是否显著性,研究人员应该报道效应值和可信区间。这些可以传递P值不能反应的信息:效应的数量级和相对重要性。

很多统计学家也呼吁用贝叶斯法替代P值。贝叶斯法诞生于18世纪,它描述考虑如何把概率作为结果的合理性,而不是作为结果的一种潜在频率(详见百度百科:贝叶斯定理)。这需要一定的主观性,有时这种主观性是统计学先驱们试图避免的。但是贝叶斯框架可以让观察者把他们所知的世界融合到他们的结果中,以及计算新证据出现后概率如何变化。

其它人认为更好的方法是鼓励研究人员尽量使用多种方法验证一组数据。卢森堡 Centre for Public Health Research 的统计学家 Stephen Senn 认为任何数据分析方法最终都会有碰到南墙的时候,就好比无法在墙角里绕不出来打转转地板清洁机器人,此时就需要一些常识推动它继续前进。如果不同的方法得到了不同的结果,他说「这表明更需要创造性并且尽力找出为什么」,这也就能更好的理解背后的真相。

Simonsohn 认为科学家们最有力的武器就是承认一切,他鼓励作者在论文中声明所采用的是P值而不P值篡改,「We report how we determined our sample size, all data exclusions (if any), all manipulations and all measures in the study. 本研究中我们报道如何决定我们样本的大小,如何排除数据(如果有),所有的操作和测量方法」。他希望这种方法不鼓励P值篡改,或者至少提醒读者论文中的任何疑点,让读者自己判断。

纽约哥伦比亚大学政治学家和统计学家 Andrew Gelman 两阶段分析法或者「预先注册复制法(preregistered replication)」也可以有效的避免P值篡改。该方法使用探索和验证分析不同的方法进行,并且要在论文中标示出来。比如一项研究,不应首先分成4种不同的小型研究,最终在一篇论文中展示所有的结果。研究人员应当首先进行2个小型探索性研究,然后综合有意思的发现,不用担心假阳性结果。然后根据这些结果作者决定如何进行规划验证结果。建议研究人员在诸如 Open Science Framework 这样的数据库中预先注册研究。将来重复研究并将结果和先前的探索性研究结果一同发表。Gelman 说「这样可以分析时更加自由和灵活,同时研究足够严谨,可以减少发表文章的假阳性数量。」

Goodman 认为研究人员需要意识到传统统计学的局限性。研究人员应当不对一个假设的命题的合理性进行科学判断进行分析,并且研究局限性不应出现在讨论中,应当提出相同或相似的实验结果,机制和临床知识等等。马里兰州巴尔的摩 Johns Hopkins Bloomberg School of Public Health 的统计学家 Richard Royall 认为一名科学家在研究结束后应当问自己3个问题:证据?我该相信什么?我该做什么?一种方法很难回答这3个问题,Goodman 说「数字是科学讨论的开始而不是结束。」

这篇文章编译自:Scientific method: Statistical errors。我了个去的,真是痛苦是我了,当时手贱真是看到这篇文章又打算翻译,原文真是艰涩难懂,用了很多类似于中文中的典故和成语,几个词就代表N多意思,要反复的联系上下文才能明白其中的意思。当然即使这样,也不是100%的翻译正确。其中部分作了小小的修改,部分内容前后顺序作了调整以利于中文阅读。大家赶紧去看原文,别让我误了,呵呵。

  • 本博客文章如未特别说明,皆为本站原创,默认采用署名-相同方式共享 4.0 国际协议
  • 相关文章

    发表回复

    您的邮箱地址不会被公开。 必填项已用 * 标注