🍊 Latent Atlas 🍉

❯

❯

Distributed Training

Distributed Training

2026年3月21日1分钟阅读

分布式训练负责把大模型训练拆分到多 GPU / 多节点执行，包括数据并行、张量并行、流水线并行、ZeRO、FSDP 和 Megatron。

建议阅读顺序：

Data Parallel：理解最基础的数据切分和梯度同步。
ZeRO 与 FSDP：理解 data parallel 冗余状态如何切分。
Tensor Parallel：理解单层矩阵和 attention/MLP 如何切分。
Pipeline Parallel：理解层级切分、micro-batch 和 pipeline bubble。
Megatron 与 3D 并行：理解 TP × PP × DP 的组合。

Notes

Data Parallel
Tensor Parallel
Pipeline Parallel
ZeRO
FSDP 分布式训练
Megatron 与 3D 并行

此文件夹下有6条笔记。

2026年3月22日
FSDP
2026年3月22日
Megatron-LM and 3D Parallelism
2026年3月22日
Pipeline Parallel
- distributed-training
- pipeline-parallel
2026年3月22日
Tensor Parallel
- distributed-training
- tensor-parallel
2026年3月22日
ZeRO
- distributed-training
- zero
2026年3月21日
Data Parallel
- distributed-training
- data-parallel

🍊 Latent Atlas 🍉 · An AI knowledge atlas built with Quartz © 2026