大模型训练全流程,从预训练、中训练到后训练,并包含数据工程、训练优化、分布式训练和 scaling 等横切模块。
Main Stages
- 预训练 — 从大规模通用语料中学习基础语言建模能力。
- 中训练 — continued pretraining、领域适配、长上下文和能力注入。
- 后训练 — SFT、RLHF、DPO/GRPO、拒绝采样和蒸馏。
- Reinforcement Pretraining — 把 RL-style objective 前移到预训练或 continued pretraining 阶段。