基本信息
- Title: Training Deep Nets with Sublinear Memory Cost
- Source type: paper
- Related topic notes: Gradient Checkpointing, Training Memory Estimation
TODO
- 阅读论文原文,整理 activation checkpointing / rematerialization 如何用重算换显存。
- 回填 sublinear memory cost 的理论形式、计算开销和适用边界。
- 补充该思想在 Transformer / LLM 训练中的工程化变化。