Annealing

Annealing 在大模型训练报告中通常指训练末期的收敛整理阶段：降低 learning rate，并常常切换到更高质量、更接近目标能力的数据混合，以改善模型稳定性、领域能力、推理表现或最终 checkpoint 质量。

它不是单一算法，而是一种阶段性训练策略。其核心思想是：早期训练强调覆盖和规模，末期训练强调高质量信号、能力整理和避免继续用噪声数据扰动模型。

两种 Annealing

大模型语境中的 annealing 至少包含两层含义：

二者经常同时出现，但应区分。只降低 learning rate 不等于 data annealing；只换高质量数据但 learning rate 不合适，也可能造成 loss spike 或过拟合。

预训练早期需要大规模、多样化数据来学习通用语言和知识。训练后期，模型已经具备基础能力，此时继续用大量低质或重复数据，边际收益可能下降，还可能污染最终能力。

末期 data annealing 的目标包括：

这解释了为什么一些模型报告会在最后阶段上采样高质量数据或特定能力数据。

一个典型 annealing 阶段：

Annealing 阶段 token 量通常远小于主预训练，但影响可能显著，因为它靠近最终 checkpoint。

Annealing 数据常见组成：

需要谨慎的是：末期数据比例会强烈影响模型最终风格和能力。如果合成数据、数学题解或 instruction-like 数据比例过高，模型可能在 base 阶段提前形成某种回答模式或偏好。

Annealing 可以看作 CPT 的一种特殊形式：它发生在训练末期，目标是整理能力和选择更好 base checkpoint。与 SFT 不同，它通常仍使用 language modeling objective，不主要训练 assistant 对话格式。

如果 annealing 数据包含大量 prompt-response 或 chat 格式，就会和 SFT 边界变得模糊。此时需要明确：

Annealing 应观察：

如果某个 checkpoint 在目标能力上最好，但通用能力退化明显，可能不适合作为最终 base。