中训练阶段介于预训练和后训练之间,通常用于继续预训练、领域能力注入、长上下文扩展和训练末期退火。

建议阅读顺序:

  1. Continued Pretraining:理解在已有 checkpoint 上继续训练的基本框架。
  2. Domain Adaptation:理解领域数据注入、replay 和遗忘风险。
  3. Capability Injection:理解数学、代码、工具、多语言等能力塑形。
  4. Long Context Training:理解位置编码扩展、长文档数据和长上下文评测。
  5. Annealing:理解训练末期高质量数据和 learning rate 收敛整理。

Notes