预训练阶段从大规模通用语料中学习基础语言建模能力,是 base model 能力形成的主要阶段。
这个目录可以按“目标 → 数据 → 表示 → 规模”的顺序阅读:
- Pretraining:预训练整体流程和它与后训练的关系。
- Training Objective:next-token prediction 及其边界。
- Data Mix:训练分布如何决定能力分布。
- Tokenizer:文本如何变成 token,以及 tokenizer 为什么是模型契约。
- Compute Optimal:把 scaling 原理落到真实预训练计划。