基本信息

TODO

  • 阅读论文原文,整理 DeepSeek-V3 的 MLA、DeepSeekMoE、auxiliary-loss-free load balancing 和 multi-token prediction。
  • 回填 MoE total/activated parameters、expert routing 和训练效率相关结论。
  • 对照 DeepSeek-V2 与 DeepSeekMoE 论文,梳理 DeepSeek 架构路线的连续性。