Article cover

统计十讲

今天我想和你严肃地讨论一下统计教育这个话题。

问题

学术界滥用统计方法搞出的各种错误结论,一方面我们得怪研究者没有用正确的方法和态度处理数据。另外一方面,整个统计教育系统的设计也难辞其咎。我亲眼见到过统计老师在课上直接讲述当年论文发不出来数据不显著,就把数据复制粘贴一份的鬼故事;听闻过有些老师觉得「方差分析太复杂」建议学生全做大量 t 检验解决问题;见到过有些老师自己搞不清楚统计概念,无法回应学生的困惑,直接高速冲过章节进行逃避的场景;甚至亲自体验过白痴老师让一大堆学生拿着计算器(计算器!)算均值、方差、相关系数。甚至我的初中数学老师以「锻炼学生的计算能力」为名,逼迫学生手算回归系数和相关系数。

另外一方面,大学使用的统计学教材在详略配比上也存在着非常严重的问题。以国内心理与教育学最常用的那本,某师大出版社出的教材为例,整本书有一半左右的篇幅都在重复小学、初中、高中范围内已经讲过的内容。我能理解为求知识体系的完整,这些信息依然有必要存在。但若没有在基础教育层次之外提供新的视角和见解,那么这本教材便存在相当程度的失职。

此外,很多面向社科研究者的教材在篇章结构的设计也有问题。为了让学生能够尽快使用方法解决问题,我们应当让学生充分地意识到,你现在可以解决什么场景下的什么问题。并且在方法逐步推进的情况下,引导学生发现自己具备处理越来越复杂问题的能力,并且可以亲自动手回答自己关心的问题。但是相当多的教材写得颇有数理统计教材之风。它们更加重视让自己的内容呈现出一种「横成行竖成列,在格式上的工整之感」,鲜有与学生共情的具体作为。

此外,与数学专业的「数理统计」有很大的不同,以应用为导向的统计课程设计不能以大段公式为中心,我也不认为塞一大堆公式推导有什么意义。我没有说不能用公式,但是你要搞清楚公式的存在是为了回答什么问题。你不能单纯地把「这公式有很重要的历史地位」就逼着所有学生推公式。我们得意识到一个残酷的现实,期末考试过后的 24 小时之内你的学生就会完全把公式推导还给你。在推导之外,我们到底要给学生的认知留下什么东西?

我认为,在「如何操作统计软件」之外,我们要留下的是一个对于「数据分析」这件事情正确的价值取向,以及明确地意识到在进行数据分析操作过程当中,我们究竟在对数据做一些什么。

回答

抱着这样的想法,我曾经思考过能否沿着传统教材讲故事的思路把「传递知识的形式」进行调整。我试着写了「统计学自下而上」系列文章当中的两篇。但到第三篇,尝试介绍方差分析的时候,我发现一切都成了死结。我完全没有办法在对着公式介绍完 t 检验的情况下将其自然地拓展到方差分析上,这个系列也就因此不了了之。

但我并没有因此放弃这个念头,在北师大修读完辛涛老师的统计学课程之后,我对整个分析体系有了一个很新的理解。这门课用的教材以模型比较为基本思路,跳过了 F 检验,直接对效应量 η² (PRE)做显著性检验[1]。同时也跳过了 t 检验、ANOVA、MANOVA、ANCOVA 这种在传统教材里面要啰啰嗦嗦讲半学期的东西,直接把它们收束到了模型设计、变量编码、回归模型比较的框架下。

在我看来这是一种相当进步的做法,它引导数据分析者搞清楚自己究竟在做什么、想要得到什么结果。但这本书也没有很尽善尽美。相当多的表述依然略显晦涩,对执教者、学习者都有很高的要求。

尽管有瑕疵,但是我依然对这本书满怀感激,因为它让我看到了一种不一样的可能性。基于这样的可能性,我这几个月从头开始执笔撰写了十个章节的「统计十讲」[2]。在这个系列里面,我尽可能与数据分析者共情,理解到社科医药领域的困惑和数据分析时的需要,并重点指出了业界的陋习和传统统计教育系统中模糊不清的地方。

限于笔力,我还没办法把它写成一个可以让新手从零开始深入理解统计分析的教材。目前它是一种「课后辅导教材」,如果你学过了数据分析课程,但是对很多东西一知半解,且这种困惑让你没办法自信地进行数据分析,那么这个系列的文章就是为你准备的。

整个系列的文章我几乎没有摆出几个公式,全程以「要解决的问题」为中心,通过模拟的方式演示数据的内在规律,并且基于这些内在规律带读者自己发现各个统计概念的真实意涵。这个系列的作品相信故事的力量,并建立尽可能多的线索,帮助你把分析任务和实际的研究桥接在一起,在实际阅读之后多留下一些知识。

下面我将列出本系列的推荐阅读顺序。请注意,我们鼓励你根据实际需求决定阅读顺序,这不是很严格的教材,是为了填补读者的知识缝隙而编写的内容。这里的「推荐」仅限你对这事情没啥想法,想找点消遣读物这一场景。

整个系列文章背后围绕这一个总纲领:数据 = 模型 + 误差,一切统计分析本质上都是在「分解误差」。建立这个世界观之上,我们会共同理解数据分析在各层次问题上引入的工具。

基本概念

理解建模是全系列的核心纲要。我们会用一个简单的例子带你建立最基本的单参数模型:均值、中位数、众数模型,并理解为什么它们是误差优化之下的产物。

理解抽样引入了抽样原理,从总体里抽一部分来推断整体的特征是统计推断的起点。这篇文章讲介绍了抽样的代表性从何而来、失真发生在哪里。我们会深入探索样本量、抽样技术、抽样分布这些重要概念。

理解方差的可加性开始引入更复杂的情况,如果你有好几个自变量,想要探索它们怎样解释因变量,那么我们就要理解方差是怎样被分解的。这篇文章带你重新理解「方差、协方差」的概念。

理解误差为误差这一概念提供更加广阔的视角。我们知道,误差和抽样密不可分,但抽样只是误差的一个来源。这篇文章盘点了模型设定误差、测量误差,把总体和样本的关系做了进一步的阐释。本文重点强调真实误差永远不可知,研究者可以窥探的只有「残差」,而残差未必忠实地反映总体误差的特点。这篇文章为后续的统计推断做了重要铺垫。

推断统计核心

理解显著性从费舍老先生的视角出发,以尽可能清晰干净的方式介绍了假设检验背后的反证法思路,以及设计这套方法的原因。

理解效应量显著性只是衡量统计证据的指标,但它不能告诉你这个差异是否有实际的应用价值。所以我们需要各种效应量指标,像是相关系数、Cohen’s d、R²。这篇文章列举了最常见的几种效应量,并介绍了怎么报告效应量、怎么解读效应量。只看 p 值是一种恶习,把效应量和显著性水平并呈是现代社科领域推荐的优秀实践方式。

理解统计效力哪怕你感兴趣的那个现象真正存在,数据分析的时候也不一定能够发现这个效应,这便是伪阴性。本文模拟了各种会导致伪阴性的情况,包括「效应太小、样本不够」和「二分化连续变量」。

理解自由度从初中数学的视角清晰地阐释了什么是自由度。并一次引出了信噪比、过拟合这些重要的概念。

进阶综合

理解独立变量介绍了最基本的模型品控指标,即共线性。它们从何而来?如何避免?如何诊断共线性?本文通过直观的统计学实验,帮助你看到劣质模型的真实面貌。

理解信息量收束了前面我们讨论过的九个话题。它通过香农信息量和费舍信息量引出「你的数据到底告诉了你什么」这个问题。我们会用大量模拟实验展示「粗暴处理数据是如何一步步损失信息的」,本篇它几乎用到了前面讲的所有概念。

未来

其实我还有几个章节还没开始写,像是分类变量的编码、交互作用、重复测量、p hacking, 独立变量与独立信息的基本精神。但目前这十讲在「知识补充」这件事上已经做的足够有力,所以我把它们编纂在一起,作为一个阶段性的成果与各位分享。

如果你在阅读的过程中有任何困惑,请随时在评论区发起讨论,我会在力所能及的范围内解答你的问题。另外,我也在犹豫是否可以将这套内容做进一步扩展,从实验设计开始,引入统计软件的操作、实际统计结果报告的解读和撰写,让整个系列变成一套真正的教材。关于此事,倘若你有任何想法,也欢迎与我讨论。

以上就是今天的阶段报告,希望你读得愉快。


  1. 严格来讲,这本书还是把 PRE 转换成了 F 值,因为不好查表且容易搞出和通用的统计系统不一致的统计量,影响论文发表。 ↩︎

  2. 我有在利用系列名偷臭某个要讲十讲结果四讲就烧两次最后烂尾的白痴政治人物,而且我不像那个烂尾的人,我十讲都写完了。 ↩︎

Comments

Loading animation

Loading comments...