基本信息
- Title: Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer
- Source type: paper
- Related topic notes: Mixture of Experts
TODO
- 阅读论文原文,整理 sparsely-gated MoE layer 的 routing、top-k experts 和 load balancing。
- 回填 MoE 中 total parameters、active computation、expert capacity 与负载均衡的基本概念。
- 对照 GShard、Switch Transformer、DeepSeekMoE 等后续路线,梳理 MoE 在 LLM 中的演进。