分布式训练负责把大模型训练拆分到多 GPU / 多节点执行,包括数据并行、张量并行、流水线并行、ZeRO、FSDP 和 Megatron。
建议阅读顺序:
- Data Parallel:理解最基础的数据切分和梯度同步。
- ZeRO 与 FSDP:理解 data parallel 冗余状态如何切分。
- Tensor Parallel:理解单层矩阵和 attention/MLP 如何切分。
- Pipeline Parallel:理解层级切分、micro-batch 和 pipeline bubble。
- Megatron 与 3D 并行:理解 TP × PP × DP 的组合。