Normalization

概念界定

归一化是调整激活值尺度和分布的技术，用于提高训练稳定性和优化效率。在大模型中，LayerNorm、RMSNorm、Pre-Norm 和 Post-Norm 是理解 Transformer 稳定训练的关键概念。

深层神经网络中，激活值和梯度的尺度可能随着层数变化而不稳定。Transformer 通常堆叠几十甚至上百层，如果没有合适的归一化和残差结构，训练很容易不稳定。

LayerNorm 对单个 token 的 hidden vector 做归一化：

LN(x) = γ · (x - mean(x)) / sqrt(var(x) + ε) + β

RMSNorm 不减均值，只使用均方根尺度：

RMSNorm(x) = γ · x / RMS(x)

其中：

RMS(x) = sqrt(mean(x^2) + ε)

归一化可以理解为控制 hidden state 的数值尺度，让每层输入处在更稳定的范围内。它不是为了改变语义目标，而是为了让深层模型更容易训练。

Pre-Norm Transformer block：

x = x + Attention(Norm(x))
x = x + FFN(Norm(x))

Post-Norm Transformer block：

x = Norm(x + Attention(x))
x = Norm(x + FFN(x))

现代大模型更常见 Pre-Norm 或其变体。

误解：归一化只是把数值缩放到 0 到 1。
- 正确理解：LayerNorm/RMSNorm 是按 hidden 维度调整尺度，不是 min-max scaling。
误解：归一化一定提升最终能力。
- 正确理解：它主要改善训练稳定性和优化条件，效果取决于整体架构。
误解：LayerNorm 和 BatchNorm 可以随意替换。
- 正确理解：序列模型和大模型通常更适合 LayerNorm/RMSNorm，因为 batch 统计不稳定且不方便自回归推理。