训练优化工程关注大模型训练过程中的稳定性、效率和资源使用,偏工程实践,不重复基础优化理论。 Notes Training Memory Estimation 混合精度训练 Gradient Checkpointing Optimizer State 训练稳定性 Loss Spike