基本信息
- Title: Root Mean Square Layer Normalization
- Source type: paper
- Related topic notes: Normalization in Transformer, Normalization
TODO
- 阅读论文原文,整理 RMSNorm 与 LayerNorm 的公式差异和效率动机。
- 回填 RMSNorm 不做均值中心化、只控制 RMS 尺度的机制。
- 结合 LLaMA/Qwen/DeepSeek 等现代 LLM,整理 RMSNorm 在 decoder-only block 中的常见位置。