预训练阶段从大规模通用语料中学习基础语言建模能力,是 base model 能力形成的主要阶段。

这个目录可以按“目标 数据 表示 规模”的顺序阅读:

  1. Pretraining:预训练整体流程和它与后训练的关系。
  2. Training Objective:next-token prediction 及其边界。
  3. Data Mix:训练分布如何决定能力分布。
  4. Tokenizer:文本如何变成 token,以及 tokenizer 为什么是模型契约。
  5. Compute Optimal:把 scaling 原理落到真实预训练计划。

Notes