基本信息
- Title: GLU Variants Improve Transformer
- Source type: paper
- Related topic notes: Feed Forward Network, Activation Functions
TODO
- 阅读论文原文,整理 GLU family、GeGLU、SwiGLU 等 gated FFN 变体。
- 回填 gated FFN 的结构、参数/计算取舍和现代 LLM 中的常见使用。
- 对照普通 ReLU/GELU FFN,整理门控分支为什么可能提升 Transformer 表达能力。