Data Parallel

Data Parallelism 是最基础的分布式训练方式：每张 GPU 持有一份完整模型副本，处理不同 mini-batch 数据，反向传播后同步梯度，使所有副本保持一致。

它解决的是吞吐问题，而不是单卡显存装不下模型的问题。普通 data parallel 中，parameters、gradients 和 optimizer states 在每张 GPU 上完整复制；如果这些状态过大，需要 ZeRO 或 FSDP 做切分。

基本流程

设有 $D$ 张 GPU，每张 GPU 处理 micro-batch size $b$ 。一次训练 step：

g = \frac{1}{D} i = 1 \sum D g_{i}

更新后所有模型副本保持一致。

Data parallel 会扩大 global batch size：

B_{global} = b_{μ} \times a \times D

其中：

global batch size 会影响优化动态。扩大 GPU 数时，如果保持每卡 batch 不变，global batch 会增大，可能需要调整 learning rate、warmup、gradient clipping 和训练 token schedule。

普通 data parallel 的主要通信是 gradient AllReduce。每个 step 需要同步所有参数对应的梯度，通信量大致与参数量成正比。

优化方式包括：

当模型变大或跨节点训练时，通信可能成为瓶颈。Data parallel 扩展效率不只取决于 GPU FLOPs，也取决于网络带宽和拓扑。

PyTorch DDP, DistributedDataParallel，是常用 data parallel 实现。它会在 backward 过程中按 bucket 异步 AllReduce 梯度，从而尽量把通信和计算重叠。

DDP 的优势：

DDP 的限制：

ZeRO/FSDP 可以看作在 data parallel 维度上减少冗余：

因此，ZeRO/FSDP 不是替代 data parallel，而是在 data parallel 的基础上切分冗余模型状态。

Data parallel 适合：

当单卡放不下模型状态时，需要 FSDP/ZeRO；当单层计算太大时，需要 Tensor Parallel；当层数太多或模型总规模太大时，需要 Pipeline Parallel。