🍊 Latent Atlas 🍉

Home

❯

Sources

❯

Papers

❯

Megatron LM

Megatron-LM

2026年5月31日1分钟阅读

  • source
  • paper
  • distributed-training
  • tensor-parallel
  • megatron

基本信息

  • Title: Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism
  • Source type: paper
  • Related topic notes: Megatron, Tensor Parallel, Training Memory Estimation

TODO

  • 阅读论文原文,整理 Megatron-LM 的 tensor parallel 切分方式。
  • 回填 attention / MLP 线性层切分对显存、通信和吞吐的影响。
  • 补充 Megatron 与 3D parallelism、ZeRO/FSDP 的组合关系。

关系图谱

  • 基本信息
  • TODO

反向链接

  • Papers
  • Megatron-LM and 3D Parallelism
  • Tensor Parallel

🍊 Latent Atlas 🍉 · An AI knowledge atlas built with Quartz © 2026