应用统计学圈子的日经问题了,p 值本身并不能够反应真实效应的大小。比如,如果你在做差异检验,他不能告诉你差异有多大;如果你在做相关性检验,它不能告诉你相关性有多强;如果你在做线性回归,他不能告诉你这个因子的影响力有多大。
p 值的局限性
在费舍的话语体系下,p 值是一种衡量统计学证据的指标。尽管后续也有人评论说这是一种很烂的统计证据指标,但表达得比较得体的是 2016 年 1 月 29 日,美国统计学会 ASA 的执行委员会(Executive Committee)正式批准的关于 p 值的声明。 这事情大到足以惊天动地,因为 177 年来 ASA 从未就具体统计实践问题发布正式声明。时任 ASA 主席 Jessica Utts 表示:「这是统计学家共同体,以 ASA 理事会的名义,首次就此议题发表声明。」
声明中的第六条间接性地指涉了费舍老先生原本对于 p 值的解释:
By itself, a p-value does not provide a good measure of evidence regarding a model or hypothesis.
单独看的话,p 值并不能提供关于模型或假设的良好证据衡量。
这里面有一条常被爱搞大新闻的媒体老师选择性忽视的大前提:「By itself」。其实费舍老先生本人也没打算把 p 值当成什么权威指标:
The value for which P=0.05, or 1 in 20, is 1.96 or nearly 2; it is convenient to take this point as a limit in judging whether a deviation ought to be considered significant or not.
我们可以看到整个论述相当的谦逊温和:老先生认为「1 in 20」是对 0.05 的通俗表达:在假设为真的情况下,随机抽样20次,约有1次会出现这么极端或更极端的结果[1]。
第二句当中有一个值得大大写在黑板上的词:「convenient」,方便。费舍先生明确表示这只是一个实用的、任意的选择,不是自然法则或数学定理。他选择这个数字是因为,在那个年代没有电脑,我们需要一个计算简便的数字,且 5% 是个整数百分比,容易记忆和交流[2]。
「significant(显著)」在费舍先生的语境中意指「值得注意的」,不是「重要」或「确切」的代名词。在原义当中,这个值用于判断一个「偏差」是否大到值得进一步研究。
Belief in the hypothesis as an accurate representation of the population sampled is confronted by the logical disjunction: Either the hypothesis is untrue, or the value of χ² has attained by chance an exceptionally high value. The actual value of P obtainable from the table by interpolation indicates the strength of the evidence against the hypothesis.
关于「统计证据」的论述来自这一段原话[3]。原文明确指出,p 值是「反对假设的证据强度」,它没有说这是「假设为真的概率」。即 p 越小意味着统计证据越强、越难用「巧合」解释、越倾向于认为反证方法当中提出的假设有问题。
请注意原文当中的用词,它说的是「indicates(指示、反映)」,不是「measures(测量)」或「equals(等于)」。p 值是证据强度的指标,但不是证据本身。
非常令人遗憾的是,整个统计教育系统都在系统性的曲解费舍老先生的本意,以至于他本人在 1956 年猛烈抨击把 p 值机械化使用的科研工作者:「没有科学工作者会年复一年地使用固定 5% 的显著性水平……他会根据证据和想法来考虑每个特定案例。」
换言之,你不能把决策的责任让度给没有给数字,特别是一个对你研究领域毫无所知的冰冷工具 [4]。
除了学界内部的争论,还有一些贝叶斯学派和频率学派之间的宗教战争,但是那就属于我很不想聊的事情了。之前有宗教信念很强的统计学家发表论文输出暴论,我对这种行为持相当保留的态度。
补充信息
ASA 提出的「By itself」是一个很好的 statement,那么「不 by itself」的话,我们还可以加入什么呢?尽管对此众说纷纭,但已有的共识是,你应当关注效应量,即真实的组间差异、相关性、因子的误差解读贡献、模型的解释能力。
这些信息里面有标准化过的(把数据简化成一个 0 到 1 的数字方便比较),也有直接展示实际差异的(比如双样本 t 检验中的两组均值之差)。
下面是一些你可能会经常用的,标准化过的效应量:
- 在 t 检验当中,效应量是 Cohen’s d,它衡量两组均值之间的差异有多少个标准差;
- 在做相关性分析的时候,效应量就是相关系数本身;
- 在做线性回归模型、方差分析的时候,效应量可以用 R² [5],它反映模型解释的方差占数据方差和的比例;
- 对于线性回归模型的每一个单独的统计参数,效应量可以用 β*,做法是把所有输入数据做 Z 转换,然后做回归得到的 β 值,它回答这样的问题:在控制了其他预测变量之后,某个预测变量每变化一个标准差,因变量变化多少个标准差?
- 如果你在做的是 GLM,在搞模型比较,那可以用 PRE,它比较使用相同数据集构建的两个线性回归模型,用来平衡参数增加造成的模型简洁性牺牲和解释能力增加之间的权衡。
- 剩下的常用值还有 partial η²/η²/f² 等林林总总的选项,看你的统计目的是什么,就选什么,因为细节过多都可以独立成文了,所以在这里从简介绍,感兴趣的读者可以自己搜一搜。
通常来说,不同的研究领域有自己的判断标准,研究人员需要根据自己的研究上下文、先前的领域经验来加以判断。如果你的领域没有先验,且你在做的是社会科学,那么下面有一个参考表给你用[6],请务必注意,这是实在没办法之后的最终手段,不是一个可以无脑拿出来用的东西。
| 水平 | r | d | η² | R² |
|---|---|---|---|---|
| 非常小 | 0.05 | 0.1 | ||
| 小 | 0.1 | 0.2 | 0.01 | 0.02 |
| 中 | 0.2 | 0.41 | 0.06 | 0.13 |
| 大 | 0.3 | 0.63 | 0.14 | 0.26 |
| 非常大 | 0.4 | 0.87 |
在实际使用的时候需要注意,每个领域、每家公司、甚至每个分析问题的效应量标准都不一样,想要知道最好的标准,最好问一下同事或老板,就算没人知道也可以自己对着以前的研究重新算一下。领域研究者则可以看看有没有元分析,毕竟效应量是一个热门话题,如果能做元分析的话很多科研工作者都会乐于写一篇积累自己的领域影响力。
另外,效应量不等于实际意义,这也是为什么从业者的经验判断颇为重要。一个很小的效应(d=0.1)在大规模系统中可能很重要,而一个较大的效应在实际中也可能无关紧要。
语法
在报告的时候,你需要同时呈递 p 值和效应量,语法类似这样:
- 我们有统计学证据认为二者存在差异(p = 0.013),但实质差异非常小(d=0.02);
- 我们找不到统计学证据来证明二者之间的差异(p = 0.7),且使之差异非常小(d=0.02)。
这里有一点比较微妙的地方,如果你直接把统计软件的截图给大语言模型,让它解读,它很有可能会直接 Follow 错误的主流解读实践给你一个很烂的答案;但是如果你让它搜权威文献,给你解读,又会解读的根本不是人话;如果你让它搜权威文献,检查你的统计报告,它大概率会参考那些贝叶斯 Bitch 的论文,并且扭曲 ASA 的解读,把你的解读改得面目全非。
我们得意识到,统计是一个高度专业的事情,解读统计结果也是一个需要小心谨慎处理的过程。回顾整个学界的争论,就会发现面多了加水水多了加面的事情从来就没停过。容易被误解就有人跳出来要废了这东西,废了没人会干活了然后就有人要重新定义,重新定义之后变得很晦涩,又有人提出要么提出来个新的计算方法,新计算方法有了统计软件不带这功能没人用,事情又陷入误解。
在我看来这事情几乎是不可解的。一来,不存在任何一种对复杂统计概念的解释,能够同时做到简单、直观、正确和万无一失。二来,使用和解释这些统计量需要一种对细节的关注,这似乎超出了工作中的科学家的耐心。最后,就算研究人员有耐心,公众也不会对这件事情有耐心,其背后对统计素养的要求很明显超过了 popular science 的标准,而且超了很多。
这是一个所有统计学家都头痛的现实,包括我自己在准备这系列内容的时候也抓耳挠腮。我不能给你一个「这么做铁定没问题」的标准,因为统计有其艺术性的一面,它依赖研究者对问题的主观分析和理解,这是没有办法用数字衡量的。
欢迎来到复杂的真实世界,我的朋友。
这不是说「有 1/20 概率假设为真」,正确的理解是「如果假设为真,有 1/20 概率看到这么极端的数据」。 ↩︎
我曾经非常打趣地在 Workshop 里这么解释为什么你不应该把 0.05 当成一个硬指标:「那是一个优雅的绅士,在夜幕之下,仰望星空,品一口茶,忽然灵光乍现脑袋里面蹦出来的标准」。 ↩︎
一个比较新的倡议是把 p 值重新定义成「兼容指数、惊喜指数」并且给它一个更好的 Scale,对数转换成 S 值 [S=-log₂(p)],并且把置信区间也重新命名成「兼容区间」,如果你对这个观点感兴趣的话可以读一下这篇论文。对于 S 值、将「显著」重命名成「兼容」这个想法,我个人非常喜欢,因为它直接跳出了原本打泥巴仗的概念范围,把整个系统拉到了一个很不容易造成误读的话语体系里。但另外一方面对于区间估计我个人的态度趋于保守,因为解读 p 值会遇到的所有问题在解读区间估计的时候也会遇到,而且给一个带量纲的区间往往会搞出更多麻烦的误读。甚至有一些荒谬的白痴批判 p<0.05 的标准,然后又开始信仰 95% 置信区间的神圣标准。综上,纯粹出于个人的口味喜好,我不太愿意用区间估计,因为跟非科研人员沟通这东西真的很麻烦,一半的时间都用来纠正六种错误解读方法了。不过我不是什么权威,这里的习惯甚至跟美国统计学会的建议相悖。你应该有你自己的判断或者听你老板的。这段内容一个非常个人口味的东西,所以我没放正文,看看就行。 ↩︎
我个人认为,构建「效应不存在的分布」这个行为本身有一个很强的假设就是研究者乐于进行研究的独立复现。这在工程领域是一个可行的事情,毕竟一个统计系统建立好之后为了算 Metrics 总是要重复执行这个统计流程。但对于学界来讲事情不是这样,大家都想要新的东西。 ↩︎
请想办法让你的统计软件输出矫正 R² (Adjusted R²),这个数字可以对过多的参数进行惩罚,Adjusted R² 是怎么回事我们之前讲过,本篇从略。 ↩︎
你随手一搜就能找到三个版本的推荐参考表,要么颗粒太粗要么标准太紧,收紧了之后又有人跳出来说不行这会损伤统计效力,然后又做微调。这些调整几乎全都是经验判断,而经验这东西又很主观。最一开始 Cohen 提出来了一个三分标准,但他本人也承认这些截断值是任意的,意图是在领域先验完全缺失时作为最后手段使用。这就是为什么我不推荐你把这张表当金标准用。本文使用这份论文中提到的标准,原文没有 d 值,是用公式后来推出来。论文中没有提及 R² 或 η² 的标准,所以拼贴进去了 Cohen 的版本,纯粹方便你看。有一部分研究者会将下表中 r 标准应用于 β*,而且这种做法在发表的文献中是存在的,但有一定争议。 ↩︎

Loading comments...