Pipeline Parallel

Pipeline Parallelism, PP，是把模型层切分到不同 GPU 或 GPU 组上，让不同设备负责不同层段。它解决的是模型深度和总参数量太大，单个 GPU 或单个 tensor-parallel group 无法容纳完整模型的问题。

与 Tensor Parallel 切分单层内部矩阵不同，pipeline parallel 切分的是层序列；与 Data Parallel 不同，每个 pipeline stage 只保存模型的一部分层。

Layer Partition

设模型有 $L$ 层，pipeline parallel size 为 $P$ 。最简单做法是每个 stage 放约 $L / P$ 层：

Stage 0: layers 0 ... k
Stage 1: layers k+1 ... m
Stage 2: layers m+1 ... n
...

forward 时 activation 从前一 stage 传到后一 stage；backward 时 gradient 从后一 stage 传回前一 stage。

如果层计算量不均匀，需要手动或自动 balance。embedding、LM head、MoE layers、长上下文 attention 都可能造成 stage 不均衡。

如果整个 batch 一次性通过 pipeline，后面的 stage 会在开始时空闲，前面的 stage 会在结束时空闲。这些空闲称为 pipeline bubble。

为提高利用率，通常把 global batch 切成多个 micro-batches，让不同 micro-batch 同时处在不同 stage：

time →
Stage 0: mb1 F  mb2 F  mb3 F  ...
Stage 1:        mb1 F  mb2 F  ...
Stage 2:               mb1 F  ...

micro-batch 数越多，bubble 占比通常越低，但 activation buffering、调度复杂度和优化约束增加。

常见调度策略：

1F1B 是大模型训练中常见策略，因为它在显存和吞吐之间更平衡。

PP 的通信主要是相邻 stage 之间传 activation 和 activation gradient。通信量与 micro-batch size、sequence length、hidden size 相关：

ActivationComm \propto B_{μ} \cdot S \cdot H

相比 TP 的层内高频 collective，PP 通信更局部，但会引入 pipeline latency 和调度复杂度。

Pipeline training 通常需要 gradient accumulation。多个 micro-batches 通过 pipeline 后，累积梯度，再做一次 optimizer step。

global batch size 仍然满足：

B_{global} = B_{μ} \times num_microbatches \times D P

其中 $B_{μ}$ 是每个 micro-batch 的 token 或 sample 数。PP 配置会影响可用 micro-batch 数，从而影响 global batch 和优化 recipe。

PP 适合：

对中小模型或后训练，FSDP/ZeRO 往往更简单；PP 的复杂度不一定值得。