基本信息

TODO

  • 阅读论文原文,整理 GLU family、GeGLU、SwiGLU 等 gated FFN 变体。
  • 回填 gated FFN 的结构、参数/计算取舍和现代 LLM 中的常见使用。
  • 对照普通 ReLU/GELU FFN,整理门控分支为什么可能提升 Transformer 表达能力。