SGD and Momentum

概念界定

SGD 是使用随机 mini-batch 梯度估计更新参数的方法，Momentum 则在更新中累积历史梯度方向，使优化过程更平滑、更具惯性。

完整数据集上的梯度计算成本很高，因此深度学习通常使用 mini-batch 估计梯度。SGD 引入了随机性，计算更便宜，但梯度噪声较大。Momentum 通过累积历史方向缓解震荡，加速沿一致方向的移动。

SGD 更新：

g_t = ∇_θ L_batch(θ_t)
θ_{t+1} = θ_t - η g_t

Momentum 更新：

v_t = β v_{t-1} + g_t
θ_{t+1} = θ_t - η v_t

其中 β 控制历史梯度保留程度。

SGD 像每次根据一小批样本判断下降方向，因此方向会抖动。Momentum 像给优化过程加上惯性：如果多个 batch 的梯度方向大致一致，就沿这个方向走得更稳定。

如果某个方向上梯度长期一致，Momentum 会累积该方向的速度，使更新更快；如果某个方向上梯度来回震荡，Momentum 会部分抵消震荡。