修正统计的 5 个方法

科学论文常用到统计方法,统计对于一篇研究论文来说很重要。选择适当的统计方法可以得到正确的结果,并避免不必的错误和不足。但是如果选择的统计方法不适当甚至错误,会对研究结果产生重要的影响,甚至是错误的结果。如今对于论文统计争论较多,自然杂志咨询了一些知名的统计学专家,就如何避免论文中的统计错误,提高统计水平,这些统计学专家给出了建议和意见。其实论文统计出现不足或错误不在于统计学本身,而是使用统计学的我们自己。

via Nature:Illustration by David Parkins

调整认知

马里兰州巴尔的摩的霍普金斯大学公共卫生学院(Johns Hopkins Bloomberg School of Public Health)的生物统计学副教授 Jeff Leek 认为,提高统计水平的方法在于,研究人员必须首先学会如何分析和解释数据,然后应用这些知识来防止认知的错误。

过去的几十年,很多专业已经从测量十几个数据到测量百万计的数据。现在用的很多统计方法,大都是还几十年前的统计方法。但是这些统计方法,是根据当时的情况设计的。以前信息疲乏,难以收集。但是现在信息呈爆炸式发展,因此再用以前的统计方法来处理现在的更大、更多样化和更复杂的数据,这些统计方法可能难以胜任。因此我们也常看到,现在的有些文献还是使用的是过时的统计方法,或者所用的统计方法根本就不恰当。其中 P 值就是最明显的一个。我们以前一直使用 P 值来看统计学是否有显著性差异,但是现在看来,使用 P 值作为统计学是否有意义,显然并不十分恰当。科研动力也呈就此发过一些博文,如 P值小于等于 0.05 是否真有统计学意义什么是 P-hacking 及其在科研中的危害等等。

但是对仅仅指责数据量过多和缺乏相应的统计训练是不够的,不使用不使用诸如 P 值之类的统计指标来做决定也是不切实际的。有时候必须作出决定时,如发表文章或申请基金,可能清晰明确的指导方针更有用。

根本问题是我们对人们如何分析和处理信息知之甚少。比如图表,实验表明人们在饼图倾向于比较角度,而在条形图中比较长和宽的微小差异。饼图和条形图的使用,可以对不同的数据有更好的理解和认识。

我们需要认识到数据分析不仅仅是计算和算法,而是人类的一种行为。我们所学的统计方法,大都是针对数据贫乏的训练,因此用于现在信息量巨大的数据,最后的数据分析就不恰当,甚至最后的数据分析更加糟糕。

在这种情况下,由于数据贫乏时候的训练,数据分析变得更糟。因此是需要调整认知的时候了,例如我们在不丢失数据关键性特性的情况下如何减少选择的数量,如何帮助研究人员在不偏倚的情况下挖掘数据。

第一步是观察:人们现在在做什么,他们如何报道的?我和我的同事们正在做这一步,下一步我们打算在大规模在线公开课程上进行可控制实验来验证人们如何处理特定的分析行为。

我们需要更多的观察性研究和随机试验,更多关于人们如何收集、整理、分析 、交流和使用数据的流行病学研究。然后我们可以使用这些证据改进研究人员和公众的培训方案。当需要面对大量的干扰数据分析时 ,改进统计培训方案是我们应对作息爆炸的唯一希望。

放弃统计学意义

伊利诺伊州埃文斯顿西北大学凯洛格管理学院(Kellogg School of Management, Northwestern University)的 Blakeley B. McShane 和纽约哥伦比亚大学的统计学家 Andrew Gelman 认为,许多专业领域,决定一项经验、研究或政策是否公开发表的标准只有一个,即结果是否有「统计学意义」,也就是常常说的 P 值(或类似的指标)是否有意义,即 P 值是否低于某些预先指定阈值。这种方法称为零假设检验(null hypothesis significance testing,NHST)。零假设检验有很多好处,比如可以使研究人员在他们的分析中研究很多的方向,但是零假设检验也有短处,如果论文中数据不具有代表性,那么零假设检验是无法验证的,因此最后的统计结果有统计学意义,但是并没有实际意义,甚至有时与我们的经验或实际情况完全相悖。

更糟的是,零假设检验经常指的是任何数据可以用来决定正反两种情况,阳性结果是有意义的,而阴性结果是无意义的。

这有点像洗黑钱。任何研究,无论设计和实施多么糟糕,都可能导致统计学意义,从而出现真假结果。如果一个研究设计和实施很差强人意,但是经过零假设检验洗白后,最后发现有统计学意义,从而说明研究有意义,这种研究对于人类文明和科学的进步并没有价值。零假设检验本来是保护研究人员过度解析干扰数据的,现在它却有了相反的效果。

今年开始出现了一场关于是否收紧统计学意义阈值来改善科学水平的争论。现已有 150 多名研究人员加入。我们认为改进不是来自更严密的阈值,而是完全放弃。我们没有禁止 P 值的愿望,相反我们希望 P 值可以作为众多证据中的一个,但同时还要结合理论知识、合理的机制、研究设计和研究质量、现实世界成本和收益,以及其他一些因素。

例如 2011 年发表于一个著名心理学杂志的文章「A single exposure to the American flag shifts support toward Republicanism up to 8 months later」(Pubmed:21742933),他们发现美国国旗的一次曝光,有助于民众支持共和党,而且此影响可长达 8 个月。我们认为,这个研究缺少政治科学理论或民意调查数据的支持,所报道的效果太明显和持久,样本数量太小不具有代表性,测量(例如投票和政治意识形态)不明确。虽然作者坚持他们的发现,但我们认为他们的 P 值提供的有用信息极少。

统计学显著性阈值可能在某些条件下有用,当所研究的条件变化不大,变量可以精确测量时,统计学显著性的影响很大。这可以很好的描述为零假设检验和规范的统计方法,如上世纪二三十年代的农业试验研究肥料对作物产量的影响 。然而如今从政策分析到生物医学领域 ,变化往往是微小、依赖于情境的、难以测量的。统计学显著性阈值就显得力不从心,例如在营养学研究中,准确报道饮食选择和健康结果就很难。

开放科学实践可以使科研人员更难从繁杂的数据中获得明显的结果,这有益于科学,但是并不能弥补实验本身的不足。与此类似的是,在很多情况下,真正的进步将需要研究人员作出和预测更能探究他们的理论,并有助于更精确的测量指标。

一个关键的步骤是不要只有一个 P 值就决定是否有意义或者没有意义。相反,科研人员必须接受不确定性和不同情况下的变化。

via Nature:Illustration by David Parkins

假阳性风险

伦敦大学药理学的名誉教授 David Colquhoun 认为,降低 P 值在统计学中的地位,研究人员需要更好的方法来解释数据。重要的是结果可能是一个假阳性。这种假阳性风险(false-positive risk,FPR)常大于 P 值。

在实验完成以前,假说的合理性取决于多大程度的假设,即实际效果的可能性。如果这个先验概率是很低的,比如 10%,然后 P 值接近 0.05 可能导致 76% 的假阳性风险。如果这个概率降为 5%(这是很多人仍相信 P < 0.05),P 值可能需要达到 0.00045。

那么何不使用假阳性率代替易被误解的 P 值呢?问题在于研究人员通常无法知道先验概率是多少。

为了得到阳性性风险为 5%,最好的解决方法是详细说明先验概率,以及提供 P 值和置信区间。

另一种方法是假设、任意的,指定先验概率为 0.5,计算观测到的 P 值和最小的假阳性风险。可以利用这个在线假阳性风险检测工具:http://fpr-calc.ucl.ac.uk/

这是一种熟悉的统计结合贝叶斯定理的策略,它利用实验的证据来更新先验概率。当然,这些计算背后也有臆断,因此自动工具都不能代替研究人员认真的思考。

希望我的建议可能有助于打破统计学家关于如何提高重复性的僵局。

想象一下,一个有疑问的读者当看到一个 P 值接近 0.05 时,他们同样会想到结果至少有 26% 的假阳性风险。为了减少这一风险到 5%,你必须几乎(至少 87%)确保在你的实验之前有真正的效果。

分享分析计划和结果

荷兰蒂尔堡大学的 Michèle B. Nuijten 教授认为,比如何分析数据规则更好的是使研究人员对他们的分析负责。

因为有太多的情况无法解释,所以一套严格的规则将无法改善统计实践。即使是一个看似简单的研究问题(如药物 A 比药物 B 更好吗)也会导致大量的不同的分析,研究人员应该如何解释诸如性别或年龄这样的变量,应该何时排除极值数据。选项过多会增加统风险,即统计学家 Andrew Gelman 所称的交叉小径的花园(the garden of forking paths),一个很容易误入歧途的地方。在众多的路线中,至少有一条会机缘性导致一次「重大」发现。研究人员如果足够努力,就会发现一个符合统计标准的结果,但是他们的发现可能是假阳性。

如何避免假阳性,可以考虑作好研究设计,并开放分享研究计划。在分析数据之前,甚至是看到最终数据之前,就计划好如何统计分析数据。当然如果把自己的统计分析数据方法先发表更好,这样就避免了首先想到了预期结果,之后利用各种统计方法以达到预期的结果,又使用不同的统计方法让结果显得更合理,更有意义。

下一步是分享所有分析的数据和结果,以及任何相关的语法和代码。这样可以让读者自己判断,如果他们同意分析的选择,找出错误,并尝试其他方法。

从内部改变规范

加利福尼亚斯坦福大学的 Steven N. Goodman 教授认为,从内部改变规范不是打破了统计,而是科学如何使用统计。从一个分支通往另一个分支的路线有无数种。不幸的是, 纪律协议即使导致了不可靠的结论,也很难修改。统计学家可以结盟——例如美国统计学会(American Statistical Association)打破了传统 ,警告 P 值的滥用——但是他们却不能解决其他专业的问题。

当培训研究人员使用定量方法时,我和其他人常感到压力,因为我们要教会的是同行和期刊所期望的标准统计方法,而不是暴露研究问题。给年轻的研究人员解释通常要花费大量的时间,当 P=0.10 时为什么他们的结果可能是一个真正的意义发现,但当 P=0.01 时结果反而可能从专业角度考虑并不符合实际情况望。但是可悲的是许多研究人员只希望有足够的知识来运行统计软件,使他们能够迅速的把论文发表。

在团队中建立规范部分是通过方法的模仿。上月发表的一篇预测自然倾向的文章(Machine learning of neural representations of suicide and emotion concepts identifies suicidal youth),他们的采用样本量是每组 17 个自愿者,因为以往的自闭症患者研究也使用这样数量。以前的资料虽然并能作为样本量大小的判断,但是它可以的作为模型。引用 Berwick 在系统变化的报告「文化会压倒规则、标准,控制每一次的策略」。

不同的规范支配不同的结果足以断言一个发现。生物医学研究通常使用「2σ」法则(P ≤ 0.05),物理学家需要至少「3σ」法则(P ≤  0.003)。临床研究中小样本量的随机试验就可以证明一个治疗效果方法,几十年前就已不采用。在心理学上,一个随机试验可以建立一个明显的理论的观念只在 5 年前一直是正常的。即使是这样,重复心理学研究有时也被视为对原始研究的冒犯。

没有一种方法能解决所有领域的问题。资助者、期刊,最重要的是,无数分支的知名专家都应该有所质疑。一旦开始从内部改变规范这个过程,它可能是自我强化的。科学家们将遵循他们在资料中看到的实践,同行评审要求其他评论者对他们的要求。

改革时间已成熟。「可重复性危机」已表明不适当的设计和分析粗心的成本。很多年轻的科学家今天需要改变。专业领导者必须再培训并适当的培训下一代。统计学家在这其中起到有个重要,但是次要的角色。实践标准必须从内部改变了。

编译自:Five ways to fix statistics. Nature. 2017 Nov 30;551(7682):557-559. doi: 10.1038/d41586-017-07522-z. https://www.nature.com/articles/d41586-017-07522-z

文中肯定有不妥或错误之处,欢迎大家留言批评指正,在此表示感谢!

  • 本博客文章如未特别说明,皆为本站原创,默认采用署名-相同方式共享 4.0 国际协议
  • 相关文章

    发表回复

    您的电子邮箱地址不会被公开。 必填项已用 * 标注