分布式训练负责把大模型训练拆分到多 GPU / 多节点执行,包括数据并行、张量并行、流水线并行、ZeRO、FSDP 和 Megatron。

建议阅读顺序:

  1. Data Parallel:理解最基础的数据切分和梯度同步。
  2. ZeROFSDP:理解 data parallel 冗余状态如何切分。
  3. Tensor Parallel:理解单层矩阵和 attention/MLP 如何切分。
  4. Pipeline Parallel:理解层级切分、micro-batch 和 pipeline bubble。
  5. Megatron 与 3D 并行:理解 TP × PP × DP 的组合。

Notes