Loss Landscape

概念界定

Loss landscape 指损失函数在参数空间中的几何形状，包括斜率、曲率、鞍点、局部极小值和平坦区域。深度学习优化通常是在高维非凸 loss landscape 中寻找较低损失区域。

大模型参数空间极高维，损失函数通常非凸。优化过程不只是简单“下山”，还会遇到曲率变化、平坦区域、尖锐区域和噪声梯度。理解 loss landscape 有助于理解学习率、batch size、泛化和训练稳定性。

损失函数：

L(θ)

梯度描述局部斜率：

∇L(θ)

Hessian 描述局部曲率：

∇²L(θ)

可以把 loss landscape 想象成高维地形。优化器在地形上移动，梯度告诉当前位置哪里上坡最快，学习率决定每次走多远，动量和自适应缩放会改变移动方式。