自由度

自由度

自由度(degree of freedom, df)是指数据集中可以自由变动的变量个数,也可以理解为可以加入限制条件的变量个数。

基本概念

比如一个数据集有 $n$ 个变量,那么最多可以加入 $n$ 个限制条件。这就像在解方程时,$n$ 个未知数需要 $n$ 个方程才能求解。

常见示例

  1. 均值相关: 对于 $\sum_{i=1}^n (Y_i - \bar{Y})$ 来说,我们有:

    • $n$ 个观测值 $Y_i$
    • 限制条件:$\bar{Y} = \frac{1}{n} \sum_{i=1}^n Y_i$
    • 这个限制条件减少了一个自由度
  2. 回归分析: 对于 $\sum_{i=1}^n (Y_i - \hat{Y})^2$ 来说:

    • 有 $n$ 个观测值
    • 若 $\hat{Y}$ 是一个包含 $p$ 个参数的模型
    • $p$ 个参数相当于 $p$ 个限制条件
    • 最终自由度为 $n-p$
    • 这意味着上述表达式可以转化为最多具有 $n-p$ 个参数的函数
署名 - 非商业性使用 - 禁止演绎 4.0