上次我们简要的介绍了统计学与实验设计当中的一些基本概念,以及频率学派假设检验体系的基本思路。这一篇文章我们将对这一思路进行更加深入的探讨(不过没有深到让你发慌,请淡定 (´・ω・)つ旦)。
让我们先用一点时间回顾一下上一篇文章提到的一些内容。之前我们遇到了这样的一个问题:王二麻和金三胖各找到了 20 名「程序员」,测量了他们的 BMI,得到了 2.91 和 22.03。一个样本比北京市人均 BMI 高,另一个则比平均 BMI 低。那么问题来了,样本均值和总体均值究竟差多少我们才能说这两个样本真的有差异?从样本分布的角度来看,影响我们判断的因素有两个:平均值本身字和样本数据的异质性。
平均值本身很好理解,在我们的研究设计中,样本和总体(20名「程序员」的 BMI 和全北京市居民的 BMI)的差异就通过平均值来体现,因此我们一定期待二者在均值上有所差异。而通过方差来反映的异质性告诉我们在这个测量系统当中的噪音有多大。如果噪音很大的话,说明我们随便进行一次容量为 20 的抽样,得到的样本均值可能具有很大的不确定性,因此你抽到的这个样本究竟能不能说明问题就很值得商榷了。
正态分布很好的描述了这一情况,对于同一个总体(比如全北京的人口),设定一个固定的样本容量(比如 ),进行无数次抽样并计算均值之后,会得到的均值的分布情况。总体均值的真值位于分布的中央,而总体的方差究竟有多大反应在分布的胖瘦上。
请注意,在这里我们有两种分布需要明确且严格的区分:「总体的分布」和「抽样分布」。
- 总体的分布指的是你关心的测量值在总体当中的分布,比如全天朝公民的身高、体重、BMI、Steam仓库里面的游戏数、单身的年数等等的分布。
- 抽样分布是经过无数次抽样、计算统计参数后,由统计参数构成的分布,比如我们规定样本容量为 20人,①从全天朝随机的抽调 20 人,②测量他们的体重、BMI 等数据,③对每次抽样的 20 人的数据进行叠加平均得到平均数,重复①②③无数次得到的身高、体重平均数的分布。
因为都是分布所以非常容易弄混,如果在阅读下文时感到混乱还请翻回来重新看一下定义,做个深呼吸、跳个广播体操,然后继续。
再谈样本和总体
在前文当中为了便于论述,我们设计了一个架空的「总体」:
一份人口普查报告称帝都全体人口的 BMI 均值为 22.58,方差为 2.41
但是事实上这种方便的「总体」信息通常是不存在的,如果我们足够有钱有闲,已经把整个帝都所有人口的 BMI 都测量一遍,那么所有围绕帝都人口 BMI 相关的问题都可以被解决了,王二麻和金三胖也就没得玩了。所以大多数情况下我们都需要通过样本来推断总体分布的各个参数。
在这里我们要引出一对概念:无偏估计和有偏估计。这两个概念指的是,通过样本对总体进行估测的时候,得出的统计量是否存在着系统性的差异。还是以平均数和标准差为例。在进行抽样的时候,样本平均数的分布总是以总体平均数为中心(这是中心极限定理告诉我们的),这意味着样本平均数可以客观的反映出总体平均数的基本样貌。
但是方差这一统计量却不一样,它是一个有偏估计量:样本的方差永远会小于总体的方差。我们可以用一种比较通俗的思路来理解这件事情:假设我们面对着一大瓶颜色各异的金平糖,我们简单的从里面挖出一小勺,可能挖出的颜色数量一定小于或等于整个瓶子内糖豆颜色的数量,即一勺糖颜色的「异质性」要比一罐糖颜色的「异质性」要小。
因此,如果想要通过样本方差来估计总体方差,我们需要进行修正,即将原本的方差公式:
分母部分的 修正成 ,得到如下公式:
这一修成过程被称为贝塞尔修正,你可以简单的将之理解为将分母调低以令方差数值增大。但事实上这个 并不是随随便便搞出来的,这里面有很严格的推导过程,具体的推导步骤我会附于本文后,供对此有疑问的朋友参考。
值与 值
这是一个比较尴尬的话题,在计算机普遍不发达的年代,研究者通常需要用计算器解决计算的问题,然后正态分布的公式长这个样子:
那么问题来了,请尝试只用那种带语音播报的计算器,徒手画出一条均值为 22.58,方差为 0.539 的正态曲线(僵硬的微笑)。这件事情对于大多数人来讲都是不可能的,除非你是抖 M (¯\_(ツ)_/¯)。
面对这个问题,研究者们会将抽样分布做一个标准化,将抽样分布的中心对齐至 0,方差缩放至 1。这样我们就可以通过一张 Z 值表来找到该均值出现的概率,进而进行推论了。
标准化的计算公式是这样的:
其中 对应中心对齐至 0, 对应方差缩放至 1。
我们在上一篇文章中提到过,中心极限定理告诉我们:
从总体上做一次样本量不小于 30 的抽样,得到的样本均值接近总体均值的概率大,偏离总体均值的概率小。
那么问题来了,如果样本量小于 30 的话我们要怎么办?这里我要坦率地讲一下,如果你在做的分析样本连 30 个都不到的话,你的样本可能没有办法有效的代表总体,不管怎么算可能都是白扯的。不过如果我们真的遇到了一个很小众的问题呢?比如如果我们把研究对象设置为「HIV感染后康复者」或者「能够吞下玻璃而不伤身体的人」?
如果你确定自己所研究的总体呈现正态分布[1](这里讲的不是抽样分布或平均数的分布,而是测量值的分布,比如体重、吞下玻璃的数量、HIV 病毒消失的速度),那么可以将正态分布替换为 分布。
我们可以比较粗糙的把 分布理解成一个长得比较胖的正态分布。正态分布有两个参数,平均值和标准差,而 分布有一个额外的参数:自由度[2]。自由度在数值上是样本容量减一()。样本容量越高,「自由度」越高、样本容量越低「自由度」越低。
在利用样本对总体进行估计的时候,如果样本容量很小,那么对总体参数的估计就会变得不准确,经过抽样、计算得到的平均数是极端值的概率会的更高。反应到 分布的形态上就会表现为分布的形态变得「矮胖」、两端的「尾巴」更粗一些。
除此之外, 分布的特点和正态分布一样,比如中心是均值,方差决定胖瘦。
值得一提的是,在样本容量大于 20 时 分布的形态和正态分布就已经很接近了,利用两种不同的分布进行数据分析得到的结果不会差很多。所以在实操过程中,数据分析者倾向于直接使用能够解决更多问题的 分布。
这种利用 值进行计算的统计分析方法被称作 检验。
总结一下, 检验的基本思路就是计算:
它可以用来比较任意两个群体之间均值的差异。
再谈假设检验
让我们再来回顾一下频率学派如何回答「究竟多多少算多」这个问题:
- 每一个数据分析工作都涉及到抽样,即从你感兴趣总体当中抽取一部分数据进行计算和分析,比如抽 20 个「程序员」算一算 BMI 的平均数;
- 现在我们想要探究我们手里的样本和期待的总体是否存在差异,用频率学派风格的话语来描述就是「这个样本究竟是否来自我们期望的总体」,而对这一问题做出回答的关键就是「概率」,即我们的样本来自这个总体的概率;
- 为了对这个问题作出回答,我们先假定这个样本是来自总体的,再来评估它来自总体的概率;
- 为了达成这一目的,我们要借助抽样分布这一工具。以平均数的抽样分布为例:中心极限定理告诉我们平均数的分布会呈现出一个钟形曲线的样子,尽管在这个总体中可能抽取到的样本有各种可能的样子,但你手中的样本包含极端值的概率会比较小,用这些样本算出来平均值「大的离谱」或者「小的离谱」的概率也很小,反应在抽样分布曲线当中就是平均数所对应的概率比较低。我们要看的是这个样本的平均数在抽样分布当中所处的位置;
- 这个时候如果我们抽到了一个样本,它的平均数真的比较大,在抽样分布中出现的概率非常小(或者说它真的是极端值),那么我们就认为这个样本不大可能属于你要研究的总体,或者他和总体真的有差别,反之就没有差别。
虚无假设和备择假设
从上面的介绍当中,我们不难发现,频率学派在做的事情就是树立一个「假设」:我们先假设手里的样本(二十个「程序员」)真的来自目标总体(全帝都所有的人口),然后检查这个事情发生的概率究竟有多大,进而判断样本均值和总体均值是否存在差异——如果概率极小那么这个假设可能就是不成立的。
整体上这是一个树立稻草人再「打倒」稻草人的过程。在树立稻草人的时候,实际上产生了一组互斥的假设:「这二十个程序员 BMI 的均值和帝都人口的平均 BMI 有差别」、「这二十个程序员 BMI 的均值和帝都人口的平均 BMI 有差别」。
这两个互斥的假设被称作是「虚无假设()」和「备择假设()」。虚无假设(淦,名字好中二)就是我们要打倒的稻草人,而备择假设是我们想要证明的那个问题。用公式来表示就是:
当然这个假设也可以是有方向的,比如王二麻觉得「程序员」都是「肥宅」(某种很恐怖的刻板印象),他想要验证这个假设,那么他的假设就是:
再比如金三胖觉得「程序员」都是「麻秆」(另一种很恐怖的刻板印象),那么它的假设就是:
值(屁值?)
科研界所信奉的显著之神和屁值之神就是这玩意了,我曾经一度怀疑是不是我对这东西的不屑招致了某种「天罚」,导致我研究生期间就没算出来过几个显著的结果。 _(:3 」∠ )_
你感兴趣的那个假设在抽样分布(比如平均数的分布)当中出现的概率就是 值了,按照我们「打倒虚无稻草人」的思路来看,这个值一定是越小越好的,即我们不希望出现的那个假设(虚无假设)为真的概率越小越好。 值的完整定义是:「如果虚无假设为真,出现抽样结果,或者比抽样结果更极端数据的概率」。
通常我们会把 的标准卡在 0.05,即只有 我们才认为分析的结果是可接受的。这个标准的制定并没有什么道理,只是拍脑门子想出来的,就和这个世界上的很多其他没道理的规则一样(¯\_(ツ)_/¯ x2)。
结果的解读
下面让我们来简单的做一道选择题,请问下列关于 值的说法,有哪些是错误的?
- 王二麻通过一次单尾 T 检验得到了 ,这说明「程序员」的 BMI 比一般帝都人口 BMI 低的概率是 84.6% 的概率;
- 值越小说明样本均值和总体均值的差异越大;
- 金三胖通过一次单尾 T 检验得到了 ,这个分析的 值比王二麻的要高,说明王二麻的分析更具有说服力;
- 王二麻和金三胖的 值都没有达到 的界限,说明「程序员」的 BMI 和帝都一般人口的 BMI 没有差异;
- 值小于 0.05 说明我们期待的效应一定真实存在。
这几个题目的设计我做的非常用心,请仔细思考并且给出明确的答案。
点击这里可以看到具体的答案和解释哦 (∩`-´)⊃━☆゚.*・。゚
其实上面的几个说法无一例外全是错的。并且反映出了和频率学派假设检验体系有关的最为常见的误解。
关于第一个说法,我们可以再来回顾一下 p 值的定义:「如果虚无假设为真,出现抽样结果,或者比抽样结果更极端数据的概率」,这实际上是一个条件概率,即虚无假设为真的情况下,出现预期效应的概率(具体条件概率是什么我们会在统计学入门系列:从左至右里面详细介绍,咕~)。这个「结论为真」完全没有任何相关性,在逻辑上也不等价。
我们在这里暂时只考虑 t 检验,就算是这么简单的一个检验方法,也包含了两个对结果有影响的因素——均值的差异和样本量。所以我们不能只看 p 值就对真实的效应量(均值的差异)做出推断,这是不恰当的。
第三点说法也是一个普遍存在的误读。一方面,考察一个研究是否具有说服力不能遵循「唯 p 值论」,从实验设计到分析方法的可行性都是需要考察的。另外 p 值仅能说明当下的研究和当前的分析是否具有统计学意义,但是不能进行横向比较。
第四个错误就连很多专业的科学研究报告都会遇到,在这里我们通过两个角度来驳斥这种奇怪的讲法:首先,容我再复制粘贴一次 p 的得定义来水字数:「如果虚无假设为真,出现抽样结果,或者比抽样结果更极端数据的概率」,它由两个要件组成:虚无假设为真,出现预期效应,这两个条件同时达成的对立面并不是这个效应不存在。另外一方面,一个分析的 p 值如果小于 0.05 只能说明我们有统计学证据证明效应存在,其对立面应当是「我们没有证据证明效应存在」而不是「我们证明了效应不存在」,这是一个很常见的逻辑谬误。另外,对于两个样本均值是否相等是有另外一种统计方法来处理的,任何情况下分析这都不应用 t 检验来解决这个问题。
关于最后一点,我们要严格区分「统计学上的显著」和「真实效应显著」两个概念,统计学上得到的证据并不一定能够客观的证实真实存在的效应,因为中间隔着实验设计、统计参数敏感度、方法选择等一大堆的墙,银弹是不存在的,刻着真理的石碑也是不存在的,这个世界就是这么扑朔迷离(¯\_(ツ)_/¯ x3)。
上面这些点正是贝叶斯学派期以来一直攻击频率学派的地方,也是频率学派解方法的一些局限。在对结果进行解毒的时候请各位务必要保持小心谨慎,不要犯这些常见的错误。
预告
我们先前提到过,王二麻和金三胖分别在车站和森林公园里面进行「取样」并且得到了两个看起来截然不同的样本。如果这两个样本能都能够公平、合理且全面的代表「程序员」群体的整体 BMI 情况,那么这两个样本应该没有很明显的差异。事实上 检验也可以用来处理这一问题,我们可以建立一个新的假设。「金三胖的样本是否来自王二麻所在测量的总体当中?」,如果我们发现了两个样本有显著差异,那问题可就麻烦了!
但是我们先不要管这个,好凑热闹的钱五毛听说两个人在争论的事情,也来馋了一脚。也在半夜后半夜两点偷偷跑去了某黑心互联网厂商的大楼,赶着人家下班高峰收了一波 BMI 的数据。那么问题来了,我们要怎样同时比较三组数据的大小呢?又如何评价谁的数据更具有说服力呢?敬请期待后面的文章哦~(咕——)
附录
样本方差修正公式的证明过程
我们可以从方差的定义开始入手:
东西就推出来了,跟魔法一样。
Comments
No comments here,
Why not write something?