Gradient Descent

概念界定

梯度下降是一类利用损失函数梯度更新参数的优化方法。它的核心思想是：沿着损失函数下降最快的方向移动参数，使损失逐步减小。

神经网络训练的目标通常是最小化损失函数 L(θ)。模型参数 θ 数量巨大，无法靠人工搜索找到最优值。梯度提供了局部方向信息，让模型可以通过迭代更新逐步改善。

基本更新公式：

θ_{t+1} = θ_t - η ∇_θ L(θ_t)

其中：

如果使用 mini-batch 估计梯度：

g_t = (1/B) Σ_i ∇_θ L_i(θ_t)
θ_{t+1} = θ_t - η g_t

可以把损失函数想象成高维地形，参数是地形上的一个点。梯度指向当前点损失上升最快的方向，因此负梯度方向就是局部下降最快方向。

语言模型预训练中，参数更新可以粗略写成：

loss = CrossEntropy(model(input), target)
gradients = backward(loss)
parameters = parameters - learning_rate * gradients

实际训练中通常不会直接使用最朴素的梯度下降，而是使用 AdamW 等优化器。