Gradient Clipping

概念界定

梯度裁剪是在梯度过大时对其进行缩放或截断的稳定训练技术。它常用于防止梯度爆炸和训练初期 loss spike。

深层网络或长序列训练中，某些 batch 可能产生异常大的梯度。如果直接用这些梯度更新参数，模型可能出现数值不稳定甚至发散。梯度裁剪用于限制单步更新的最大强度。

常见方式是按全局范数裁剪：

if ||g|| > c:
    g = c · g / ||g||

其中：

梯度裁剪像给参数更新加了安全阀。正常梯度不受影响，异常大的梯度会被缩小到可接受范围。

训练日志中如果出现突然的 loss spike 或 grad norm 爆炸，可以检查是否需要梯度裁剪、调整学习率或排查数据异常。