基本信息
- Title: ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep Learning
- Source type: paper
- Related topic notes: ZeRO, Training Memory Estimation, Training Budget
TODO
- 阅读论文原文,整理 CPU/NVMe offload 如何扩展可训练模型规模。
- 回填异构内存层级、带宽瓶颈和调度策略。
- 补充 offload 与 GPU 显存、训练吞吐、checkpoint 存储之间的 trade-off。