基本信息

TODO

  • 阅读论文原文,整理 RMSNorm 与 LayerNorm 的公式差异和效率动机。
  • 回填 RMSNorm 不做均值中心化、只控制 RMS 尺度的机制。
  • 结合 LLaMA/Qwen/DeepSeek 等现代 LLM,整理 RMSNorm 在 decoder-only block 中的常见位置。