City Background
观点

理解自由度

LOSSES

这个概念几乎被所有大学统计老师给讲坏了。

一个简单的常识,三元一次方程组必须要有三行算式(条件)才有机会获得唯一解。如果待求解参数比条件数还多,那么我们就会面对一个拥有无穷解的情况。

另外一个你可能没太注意,但早有概念的事情:独立信息,三元一次方程组必须要有三行独立的算式才有机会获得唯一解,如果其中两行方程其实在说同一件事(比如公式一模一样,或者左右都乘了个二就当新条件),那它们加在一起也只算一条条件,这不是独立信息。

这两点可以被延伸到假设检验体系,在这个体系里面,待求解的未知数成了「模型的参数」、条件变成了数据量(样本量)。在样本量比参数个数多的时候,这个系统被称作超定方程组,而样本数量比参数个数少的时候,这个系统被称作欠定方程组。

但是在延伸的时候需要注意,假设检验体系处理的数据是有噪音的(比如你研究摄入热量和体重关系的时候,你不可能穷尽所有变量,比如菜是谁种的、调料加多少、在哪里吃的、吃冷的吃热的、吃的时候开不开心等等)。我们永远都是在通过样本尝试推断总体的某个特征,但永远得不到精确解,我们只是在尝试找到最优解,这和解一般方程组有本质差异。

在大多数情况下,如果你的样本数量比参数个数还少,那么传统假设检验体系就会彻底崩溃(但注意,机器学习领域有它自己的妙妙小方法)。

因此,自由度可以被视作是一种代币,它告诉你最大的参数可容纳空间被怎样分配到了整个模型当中。

在超定方程组中,我们在做的是在一个噪声系统中找到未知参数的最优解。换言之,你在做的大多数数据分析过程都是在一个噪声系统中找到信号的线索。这时候就会冒出信噪比之类的概念。这事情比较好理解,你的数据量(样本量)必须比参数量大到某种程度,(如大多数分析方法假设的、遵循正态分布的)噪声才会被充分叠加相互抵消掉,才能暴露出信号的真实样态。

因此,在进行统计分析的时候,你必须报告自由度信息,因为他能告诉你数据冗余有多大,这个冗余可以用来权衡整个模型被过拟合的风险有多高(过拟合就是你把噪声当信号给拟合到模型里了),你到底有没有通过暴力增加参数来 hack R square。

整数自由度的前提,是你能清楚地数出「这批数据里有多少条独立信息」。但在混合效应模型这类情况下,数据结构本身就很复杂(比如同一个人被反复测量,班级里的学生彼此相似)这导致你根本无法直接清点「独立信息有几条」,因为数据点之间存在相关性,它们不是一人一票,而是有的信息值半票,有的值 0.8 票。

既然没办法整数地清点,统计学家就用一套公式反推出一个「等效的」信息量,这个等效值大概率不是整数,于是自由度就变成了小数。它不是精确计算出来的,而是「如果这批数据是来自某个理想的简单情况,它大概等价于多少条独立观测」的一个估算。

「可以自由变换数据的数量」是一种不直观的,甚至容易产生歧义的解释方法,尽管意义正确,但正确得没有什么价值,因为纯粹数学专业之外几乎没有人能理解其含义。

Comments

Loading animation

Loading comments...