🍊 Latent Atlas 🍉

Home

❯

Sources

❯

Papers

❯

GShard

GShard

2026年6月01日1分钟阅读

  • source
  • paper
  • moe
  • distributed-training

基本信息

  • Title: GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding
  • Source type: paper
  • Related topic notes: Mixture of Experts, Megatron

TODO

  • 阅读论文原文,整理 conditional computation、expert routing 和 automatic sharding 的系统设计。
  • 回填 MoE 训练中 expert parallel、通信和负载均衡的关键问题。
  • 对照 Switch Transformer 和 DeepSeekMoE,梳理大规模 MoE 系统演进。

关系图谱

  • 基本信息
  • TODO

反向链接

  • Sparse and Efficient Architectures
  • Mixture of Experts
  • Papers

🍊 Latent Atlas 🍉 · An AI knowledge atlas built with Quartz © 2026