基本信息
- Title: Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
- Source type: paper
- Related topic notes: Mixture of Experts
TODO
- 阅读论文原文,整理 top-1 routing、expert capacity、load balancing 和 sparse FFN 的训练细节。
- 回填 Switch Transformer 对 MoE 简化、稳定性和扩展性的贡献。
- 对照 GShard、Outrageously Large Neural Networks 和 DeepSeekMoE。