基本信息
- Title: ZeRO: Memory Optimizations Toward Training Trillion Parameter Models
- Source type: paper
- Related topic notes: ZeRO, FSDP, Training Memory Estimation
TODO
- 阅读论文原文,整理 ZeRO-1/2/3 分别切分 optimizer state、gradient 和 parameter 的机制。
- 回填 ZeRO 对 data parallel 冗余显存的数学分析。
- 补充通信开销、显存收益和与 FSDP 的关系。