Learning Rate Scheduler

概念界定

学习率调度是让学习率随训练步数变化的策略。常见调度包括 warmup、linear decay、cosine decay 和 constant schedule。

训练初期模型参数和优化器状态尚不稳定，直接使用较大学习率容易导致 loss spike。训练后期如果学习率仍然过大，模型可能难以收敛到更好的区域。因此大模型训练通常使用分阶段学习率调度。

Warmup：

lr_t = peak_lr · t / warmup_steps

Linear decay：

lr_t = peak_lr · (1 - progress)

Cosine decay：

lr_t = min_lr + 0.5(peak_lr - min_lr)(1 + cos(π · progress))

Warmup 像训练刚开始时慢慢加速，避免一上来步子太大。Decay 像训练后期逐渐放慢脚步，让参数在较好区域附近稳定下来。

典型 LLM 训练学习率曲线：

0 -> peak_lr -> gradually decay to min_lr

如果 warmup 太短，训练初期可能不稳定；如果 warmup 太长，可能浪费训练步数。