Batch Size and Gradient Noise

概念界定

Batch size 决定每一步用多少样本估计梯度，梯度噪声描述 mini-batch 梯度相对真实梯度的随机波动。二者共同影响训练稳定性、吞吐、泛化和学习率选择。

大模型训练需要高吞吐，因此常使用很大的 global batch size。但 batch 变大后，梯度估计更稳定、硬件利用率更高，同时也会改变优化动态和学习率需求。

真实梯度：

g = E_{x~p_data}[∇L(x)]

mini-batch 梯度：

g_B = (1/B) Σ_i ∇L(x_i)

梯度噪声可以理解为：

g_B - g

小 batch 像根据少量样本判断方向，方向更抖；大 batch 像综合更多样本再判断方向，方向更稳定。但过度稳定并不总是最好，因为梯度噪声也可能影响探索和泛化。

如果每张 GPU 的 micro batch 是 4，使用 8 张 GPU，梯度累积 16 步：

global batch size = 4 × 8 × 16 = 512

优化动态更接近 batch size 512 的训练。