美国统计学会发布P值使用原则


周不润, NeuroTimes   |   March 7, 2016



P值是科研领域神奇的数值,无数人为之欢喜或悲伤,无数方法在试图将其变得越小越好。

只关注P值为科研带来了不少困扰。在有些领域,P值成为了门槛。这种偏见导致了抽屉问题(file-drawer effect),统计结果显著的文章更容易出版,而可能同样重要的非显著结果则锁在抽屉里,别人永远无法看到。因此很多人都会做一些“p-hacking”的工作(通常是增加样本量),让P值达到可以发表的程度。也有一部分人用其他统计方法而非P值来统计结果。

2014年2月, Mount Holyoke College数学和统计学系教授George Cobb在ASA的论坛上问了这样的问题:
问:为什么这么多学校要教P=0.05?
答:因为整个科学界和杂志编辑都在用这个标准。
问:为什么这么多人仍然在用P=0.05?
答:因为学校里这么教的。

这就陷入了循环,我们要教这个是因为我们平时这么用的,我们这么用因为我们的老师以前就这么教的。

在这个科研可重复性被反复提及的时候,针对这种过分强调P值的情况,美国统计学会(American Statistical Association,ASA)发布了一个关于“统计意义和P值”的声明,提出了6条使用和解释P值的原则。

这6条原则包括:
1. P值可以表示数据与一个特定的统计模型是否相容;
例如零假设通常用来假设一个效应不存在,如两组之间没有差异,两个因素没有相关性。此时P值越小,数据与零假设的不相容性(incompatibility)越大,可以解释为这些数据怀疑或否定了零假设。

2. P值不能代表假说为真的概率,也不代表数据完全是由随机因素造成的概率;
P值是所得数据与解释之间关系的说明,而不是对解释本身的说明。

3. 科研结论、商业决定和政策制定不能完全凭P是否小于一个特定的值来决定;
重大决策与结论中,需要考虑诸多因素,如实验设计、数据质量、外部证据、假设的合理性等等,不能只由P值决定Yes or No的问题。

4. 正确的推理需要全面的报告和透明度;
正确的科学推理,需要研究者公布研究中包含的所有假设,所有数据收集的决定,所有进行的统计分析和所有P值。

5. 一个P值,或者显著性,不能表示一个效应的大小,或者一个结果的重要性;
P值大小不代表效应大小。再微小的效应,达到一定的样本量和测量精度,都能得到小的P值;再大的效应,在样本量和测量精度不那么高的时候,也可能只能得到普普通通的P值。

6. P值本身不能作为判断一个模型或假说的良好量度。
单独的P值只能提供有限信息。用一个略小于0.05的P值来拒绝零假设就难以有说服力;相反,一个相对较大的P值也不能说就赞成零假设。当有其他方法可选时,数据分析不应该以一个简单的P值计算作为结束。

1. P-values can indicate how incompatible the data are with a specified statistical model.
2. P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone.
3. Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold.
4. Proper inference requires full reporting and transparency.
5. A p-value, or statistical significance, does not measure the size of an effect or the importance of a result.
6. By itself, a p-value does not provide a good measure of evidence regarding a model or hypothesis.


ASA的执行董事Ron Wasserstein说,P值从来都不能取代科学推理,一个好的科学推理也不是仅仅一个数据、以及这个数据是不是在某个范围内能决定的。只关注P<0.05的时代应该过去了。

其实ASA的文章没有任何新颖之处,这些都是统计学家的老生常谈。但这是第一次,有一个统计团体,为P值的问题发表声明。ASA称,他们希望引发整个科学界的广泛讨论,更好地解释并合理使用统计方法。




分享到


© 2014-2015 NeuroTimes