基本信息

TODO

  • 阅读论文原文,整理 LayerNorm 与 BatchNorm 的统计维度差异。
  • 回填 LayerNorm 在 sequence model / Transformer 中为什么适合变长序列和自回归设置。
  • 补充 LayerNorm 与 RMSNorm、Pre-Norm / Post-Norm 的关系。