Adam

概念界定

Adam 是一种自适应优化器，它同时维护梯度的一阶矩估计和二阶矩估计，用于调整每个参数的更新方向和更新尺度。Adam 及其变体 AdamW 是大模型训练中最常见的优化器之一。

普通 SGD 对所有参数使用相同学习率，但不同参数的梯度尺度可能差异很大。Adam 通过估计梯度均值和平方梯度均值，为每个参数自适应调整更新幅度，从而提高训练稳定性和收敛速度。

给定梯度 g_t：

m_t = β1 m_{t-1} + (1 - β1) g_t
v_t = β2 v_{t-1} + (1 - β2) g_t^2

其中：

偏差修正：

m_hat_t = m_t / (1 - β1^t)
v_hat_t = v_t / (1 - β2^t)

参数更新：

θ_{t+1} = θ_t - η · m_hat_t / (sqrt(v_hat_t) + ε)

Adam 会记住“梯度长期往哪走”和“这个参数的梯度通常有多大”。如果某个参数梯度尺度很大，Adam 会相对缩小它的更新；如果梯度尺度小，则相对放大。

Adam 优化器状态通常包括：

parameter θ
first moment m
second moment v

如果使用 fp32 master weights，还会额外保存 fp32 参数副本。这也是大模型训练中优化器状态显存占用很高的原因之一。