今天我想和你聊聊显著性检验系统本身在尝试解决的问题。
请注意,本篇全部围绕费舍的语言体系,我没有打算在这篇把 Neyman-Pearson 的语言体系拉进来让整个讨论变得复杂化。我理解对于很多读者来讲理解两组条件概率是一个很痛苦的事情,而在这篇中我们没必要自找麻烦,也没必要自讨没趣。如果你想要和 LLM 讨论本篇内容,请把这句话完整的粘贴进去,并严格要求你的 LLM 不要半路把皮尔森的术语体系带进来。
问题
让我们思考这样的一个情境,你想看体育学校的初中生,其身高是否会比全国的理论均值模型高。量体校学生的身高不是一件很难的事情,你找了一些同事,在各省市募集一些体校学生,测了个身高,数据就收到了。接下来你算了个均值,发现的确高了一些,但是没高多少,就一厘米。你不知道这一厘米是否有意义,所以寻求一个解答。
为了解答这个事情,我们有两个工具可用,效应量和显著性水平。今天我们主要讲后者,我们可以将之理解为「我们得到的这个结果到底是否可靠」。
要理解这个「信心」,我们就得理解为什么我们没有「信心」。这个信心在描述的是,如果我们再重新做一次这个实验,究竟还能不能得到类似的数据。
我想你大致能想象,只要你不做全量测量(测量全国所有的体校学生),那么每次测量出来的数字就会有多多少少的差别。哪怕你做了测量,尺子也不是精确到原子级别的,测量依然会有误差。这个差别要是很大,那么整个研究就是一个不可靠的研究,我们对它「没有信心」。
Yes or No
我们要量化这个信心,有两种方法:Say Yes and Say No.
你的直觉想法可能是,我把所有数据劈成两半,一半大于理论模型均值,一半小于理论模型均值,我们来看超过理论模型均值的人占多少百分比,就能作为「信心」的衡量。
如果你测量的是全世界上所有的体校学生,那我其实不能说你的想法有问题,但事实层面上我们做不了这样的事情。一旦我们想要把研究成本控制在可接受的范围内,势必要采用抽样技术对问题进行回答,通过我们的样本来「推测」世界上所有体育学校学生的身高。而一旦开始推测就会引入猜错的概率。
在统计学上,我们使用抽样分布来表述这个概率。这个分布描述了,你再做无数次实验,每次都用严格一致的方法,找一批学生、量一次身高,得到的无限多个均值,这些均值会呈现出什么样的分布规律[1]。
这就和你曾经学过的参数检验联系在一起了:在实验设计正确、测量仪器正常的情况下,你复现无数次实验之后,会得到一个由所有均值构成的钟形曲线,这个曲线的中心是全国所有学生数字的均值,它的离散程度与样本量有关。
抽样分布是目前唯一我们能用来描述抽样带来不确定性的工具,它能将「确定的总体差异」映射为「样本观测数据出现概率」的计算工具。换言之,如果你假设了全国学生的身高均值和体校生身高均值的差异为 1,它么它会给你一个分布,告诉你倘若此说法为真,你做一次实验抽到各个均值的可能性是多少。
吊诡之处在于,抽样分布要求我们提供一个准确的中心值,而不是一个「中心值的模糊范围」。因此麻烦的事情就来了:若利用这个工具,我们想要回答「体校学生高比全国学生高」这种宽泛的问题,就必须得在没有数据的情况下每局他们高 1 厘米、高 2 厘米、高 3 厘米、高 4 厘米的情况,一路往后列到天荒地老海枯石烂。我们得搞清楚它们各自的可能性是多少,并且把所有的概率加在一起,否则你的数据没法翻译成你想要的答案。 更麻烦的是,身高是一个连续变量,0.1 和 0.2 之间可以无限细分,这就让整个事情变得超级复杂。你得用积分,得上贝叶斯(属于神的、非常耗电不环保的统计方法)。
请注意,这不是一个不可以操作的方法,已经有大量成熟的统计方法论和软件包帮助我们利用这个思路回答问题。但是应用它的挑战是心智负担,大多数社科和医学领域的研究者都无法在脑袋里面构建一个正确的概念,在统计方法的教学上也有困难,因而 Say Yes 的思路并没有成为社科医学领域的主流数据分析方法。
从科学哲学的角度来看,Say No 要比 Say Yes 要简单得多。要证明一个池塘里面所有的天鹅都是白色的,你得把所有天鹅都拎出来一个一个看眼色;但要证明一个池塘里面的所有天鹅并不都是只有白色的,你只需要找出一个黑的就行。
基于这个思路,费舍设计了显著性检验系统,其核心思路是反证法。这个方法论构建了一种叙事:如果「说它存在很困难」,那我们可以反过来论证「它不可能不存在」。用我们的体校学生身高的例子来看,将差异不存在翻译成统计学语言就是「差异等于 0」,这个假设指向了一个单一且精确的分布,没有连成片的联合概率。而这里面所说的「不可能」即是「概率很小」。
分布
接下来我们要看「差异等于零」这个分布具体是怎么构建的。在费舍的语言体系里面,我们需要先设立一个前提:假设「体校」这个因素对学生的身高没有任何影响(等效于差异等于 0)[2]。我们暂且假设「全国基准」是一个从历年统计中已经查到的固定数字。
当这个假设成立时,「体校」这一分类条件在身高指标上就失效了。一名体校学生,在身高这个话题上,「体校」这个标签不带任何额外信息,他们整体的真实平均水平就是从历年统计数据上能直接查到的数字。我们在体校范围内做无数次实验复现,做抽样、量身高、算均值,得到的样本均值全都会以全国均值为中心上下波动,不会让人感到意外。
但如果此时惊喜事件唐突发生:我们得到了一个出现概率很小的均值,那么说明手里的这组数据和这个假想世界根本「八字不合」换言之,这个把全国基准当作体校学生真实均值的假设站不住脚,我们由此反向推断:体校这个分类,对身高有鉴别作用。
统计学家把这个推断进一步修饰成「有显著的统计学差异」。不难发现,「显著差异」是对上面这套反证法的一个包装。
假设
一种对 p 值的误读是,将 p 值解释成研究结果出错的概率。
然而事实上,p 值不衡量「研究假设为真的概率」,也不衡量「数据是由随机机会单独产生的概率」;它更接近于「数据与某个指定统计模型有多不相容」。也就是反证法的核心精神:如果我们先把「无差异」这个精确前提连同实验设计前提一起按下不表,当作固定事实,那么像现在这么极端的数据,在那个世界里有多少见。
总结而言,它做了这样的三件事:
先设一个可计算的理想世界,这个理想世界中体校因素不起作用,且实验的抽样、随机化、测量前提足够成立。这个世界不是现实真相,只是一个检验所依赖的计算舞台。
在这个前提下,我们问:如果这个舞台是真的,而且随机化是完美的,那么假如我把整个抽样实验重复做无数次(每次都从全国学生中随机抽取同样规模的体校样本),样本均值差异会呈现什么样的波动?
最后,把观测值放到均值的分布上:你看到的 1 厘米差异,落在这张地图的中心还是尾部? p 值就是它和更极端结果所占的尾部概率。p 值越小,只能说明这份数据和那个「无差异且前提成立」的计算世界越不协调,我们也就得出了「我们手上的样本不来自这个理想世界」的推断。
一个非常有趣也很常见的 p 值误读是:「p 值是数据由随机误差造成的概率」。
回到我们刚刚搭建的那个舞台。在这个舞台上,「体校」已经被强制设定为对身高毫无影响。这是这个世界在开张时就写死的设定,而不是我们后来推出的结论。在这条设定之下,无论样本里冒出来的是高 0.1 厘米还是高 10 厘米的差异,「体校」都不可能为这个差异负责。它没有承担效应的资格。能解释这些差异的,就只剩下抽样的偶然、测量的扰动、个体的天然差异这些我们统称为「随机」的因素。
也就是说,在我们构筑的假想舞台里,「数据是由随机产生的」这件事根本不是一个有不确定性的命题,它就是刻在上帝石碑上的既定事实,它发生的「概率」恒等于 100%。如果 p 值真的衡量的是这件事,那任何一份数据算出来的 p 值都应该是 1,这显然不是统计软件吐出来的结果。
说得再简单一点:我们在扔一颗公平骰子。如果我们问「这个结果来自随机过程的概率」,答案当然总是 100%,因为扔公平骰子产出的结果本来就是随机的。但你若问「在这个骰子上扔出 6 的概率」,答案是 1/6。p 值在谈论的问题显然是后者。
这两个问题看似相似,但一个在问结果的来源,一个在问特定结果的可能性。
延展
此外,在解读研究结果的时候,研究者必须非常小心。所有的统计推断都发生在我们构筑的理想世界当中,但现实世界存在着很多额外的影响因素。比如:抽样是随机的、测量工具是有效的、数据的形态和统计方法的假设之间匹配、没有实验者效应、研究设计本身是合理的、数据没有被污染、编码没有出错。
在科学哲学中,这被称为 Duhem-Quine 问题(整体论):我们永远无法孤立地检验一个假设。 我们检验的永远是一个假设连同它所有辅助假设的整体。当看到一个很小的 p 值时,逻辑上我们只能说:在「Say No 假设的理想舞台之上」且上述这堆假设同时为真的情况下,得到数据出现的概率很低。
但实际上,风险就是风险,如果针对每一个潜在影响因子都做一个惩罚,这世界上几乎就没什么研究是「显著」的了。
发明显著性检验的费舍先生本人其实部分意识到了这一点。他把显著性检验看作是归纳推理的一个环节,反对将之看成一个「木得感情审判机器」。他强调:一次显著结果什么都说明不了,需要独立重复。显著性检验是用来「学到点什么」的,不是用来做最终裁决的。研究者的判断力(judgment)在解读中不可或缺。
但现实生活中,独立重复实验(也就是实验的复现)很难被发表,研究者也就没什么动力做实验复现了。在大家都在做「新研究」、追求「新疆土」的情况下,无论是费舍的统计系统,还是贝叶斯统计系统都会引入一个系统性的风险。
这不是说科学无用,也不是说统计学无用,而是笔者对读者的一个期待:我们要对风险保持警觉,要对统计方法和这个世界保持敬畏。报告置信区间、做实验预注册、鼓励研究复现都是一种谦卑的姿态和值得学习的美德。
推荐阅读:
- 研究人员射烂自己脚丫子的二十五种滑稽姿势
- 整个显著性检验体系的奠基性教学案例,女士品茶
- 同名书籍也很值的一看,虽然我还没开始看

Loading comments...