基本信息
- Title: GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding
- Source type: paper
- Related topic notes: Mixture of Experts, Megatron
TODO
- 阅读论文原文,整理 conditional computation、expert routing 和 automatic sharding 的系统设计。
- 回填 MoE 训练中 expert parallel、通信和负载均衡的关键问题。
- 对照 Switch Transformer 和 DeepSeekMoE,梳理大规模 MoE 系统演进。