基本信息
- Title: Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism
- Source type: paper
- Related topic notes: Megatron, Tensor Parallel, Training Memory Estimation
TODO
- 阅读论文原文,整理 Megatron-LM 的 tensor parallel 切分方式。
- 回填 attention / MLP 线性层切分对显存、通信和吞吐的影响。
- 补充 Megatron 与 3D parallelism、ZeRO/FSDP 的组合关系。