基本信息
- Title: GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism
- Source type: paper
- Related topic notes: Pipeline Parallel, Training Memory Estimation
TODO
- 阅读论文原文,整理 pipeline parallelism、micro-batch 和 pipeline bubble 的机制。
- 回填 layer partition 对显存、吞吐和训练时延的影响。
- 补充 GPipe 与后续 1F1B / Megatron pipeline parallel 的关系。