基本信息
- Title: Layer Normalization
- Source type: paper
- Related topic notes: Normalization in Transformer, Normalization
TODO
- 阅读论文原文,整理 LayerNorm 与 BatchNorm 的统计维度差异。
- 回填 LayerNorm 在 sequence model / Transformer 中为什么适合变长序列和自回归设置。
- 补充 LayerNorm 与 RMSNorm、Pre-Norm / Post-Norm 的关系。