什么是P-hacking及其在科研中的危害

我们在统计时经常用到P值,一般认为P≦0.05有统计学意义。但是现在很多统计学家并不是这样认为,对于P值的滥用和误用进行了苛刻的批评。因此出现了一个新词:P-hacking。什么是P-hacking?P-hacking在科研研究中有什么危害?

什么是P-hacking及其在科研中的危害

什么是P-hacking

P-hacking 最早应该是美国宾夕法尼亚大学的Simmons和他的团队提出来的[1, 2]。

P-hacking 按照字面的意思来看是「P值黑客],但是实际上的意思科研动力认为是「P值篡改」或者「P值操纵」。这可能是在线都市词典收录的第一个统计词汇:

Exploiting –perhaps unconsciously - researcher degrees of freedom until p<.05.

从词典给出的意思来看P-hacking是科研人员不断的尝试统计计算直到p<.05,当然有时这可能是无意识的。在线都市词典还给出了例句:

That finding seems to have been obtained through p-hacking, the authors dropped one of the conditions so that the overall p-value would be less than .05.
She is a p-hacker, she always monitors data while it is being collected.

Simmons 等人也对P-hacking进行了定义[1, 2]:

P-hacking refers to the practice of reanalyzing data in many different ways to yield a target result. They, and more recently Motulsky, have described the variations on P-hacking, and the hazards, notably the likelihood of false positives—findings that statistics suggest are meaningful when they are no.

P-hacking 指统计分析数据时采用不同的方法直到P<0.05,P-hacking很容易引起假阳生结果。

因此,P-hacking从字面意思上看是P值黑客,但是实际上P-hacking代表的是P值篡改。

对于现在科研中P-hacking的问题,也引起了NIH的注意[3]。为此NIH制定了一些规章制度和指南[4],实验实验如何随机分组的指南[5],来规定如果是进行临床实验,实验前应该注意的问题。目的就是为了一个,提高实验设计水平,提高实验的可重复性,减少最后P值篡改的可能性。

P-hacking在科研中的危害

P-hacking在科研中的危害很明显,那就是很容易引起假阳性,导致实验的不可重复性。可是悲催的是Megan L. Head等人研究发现P-hacking在现在已发表的科研论著中相当普遍[6]。

为什么为这样?发表论文和压力,现在的科研人员和科研单位太看重SCI和影响因子了,大多数的东西都与这个挂钩。影响因子俨然成了评价科研成果大小的一个最主要的指标,而SCI数量成了一个科研人员科研水平的指标。

在这种条件下,科研人员不断的追求SCI数量和影响因子大小也就可以理解了。研究了半天,最终能发表是第一要素。可是有时候研究出来的结果一统计根据P值可能就意义了。此时可能就是无意思的变换统计方法,直到P值有意义。甚至有的人还会删除一些数据,或者改动数据,直到最后统计出来的结果满意为止。

有两种方式会引起统计结果的明显改变,一是选择样本不随机性。在样本入组时,有太多的人为因素和主观因素,样本不是按照随机原则入组的。另外一个就是P值篡改,研究人员使用不同的统计方法和数据,选择那些会产生阳性结果的数据,不断的统计直到统计结果满意。

可以引起P值篡改的行为有:在实验统计时决定是否继续收集数据;记录了很多变量,但是统计后根据P值进行取舍;统计分析后发现结果不满意,然后删除一些变量再统计直到结果满意;统计分析后把一些指标进行合并或者拆分;统计结果发现P值有意义就停止收集数据。

因此可以看出,在统计时P-hacking有太多的人为因素参与,因此很易导致结果的不准确性,也就是我们常说的假阳性。这也就会引起实验结果的不可重复性。你做出了结果,在另外一个实验室或者地方就做不出来这样的结果,甚至自己再做一遍也得不到同样的结果。那这样的研究有什么意义呢?!

这是从小的说,从大的说P-hacking就阻碍了科研的发展。一旦假阳性结果发表了,就会持续很长时间。这种结果又不可重复,甚至即使能重复,早期发表的阳性结果比阴性结果更能吸引人。大家都把目光着眼于统计显著性上了,却忽略了事实的本质。

更多信息请参阅:

P值小于等于0.05是否真有统计学意义

参考文献:

1. Simmons JP, Nelson LD, Simonshohn U. False-positive psychology: undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychol Sci. 2011 Nov;22(11):1359-66.

2. Motulsky HJ. Common misconceptions about data analysis and statistics.  J Pharmacol Exp Ther. 2014 Oct;351(1):200-5.

3. Collins FS, Tabak LA. Policy: NIH plans to enhance reproducibility. Nature. 2014 Jan 30;505(7485):612-3.

4. NIH. Enhancing the Reliability of NIMH-Supported Research through Rigorous Study Design and Reporting

5. NIH. Principles and Guidelines for Reporting Preclinical Research

6. Megan L. Head, et al. The Extent and Consequences of P-Hacking in Science.

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: