🍊 Latent Atlas 🍉

Home

❯

Sources

❯

Papers

❯

Switch Transformer

Switch Transformer

2026年6月01日1分钟阅读

  • source
  • paper
  • moe
  • sparse-model

基本信息

  • Title: Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
  • Source type: paper
  • Related topic notes: Mixture of Experts

TODO

  • 阅读论文原文,整理 top-1 routing、expert capacity、load balancing 和 sparse FFN 的训练细节。
  • 回填 Switch Transformer 对 MoE 简化、稳定性和扩展性的贡献。
  • 对照 GShard、Outrageously Large Neural Networks 和 DeepSeekMoE。

关系图谱

  • 基本信息
  • TODO

反向链接

  • Sparse and Efficient Architectures
  • Mixture of Experts
  • Papers

🍊 Latent Atlas 🍉 · An AI knowledge atlas built with Quartz © 2026