Transformer 模块负责整理标准 Transformer 架构及其核心组成,包括 block 结构、attention、FFN、残差、归一化和 decoder-only 变体。

Reading Path

  1. Transformer:整体结构和训练/推理关系。
  2. Decoder-only Transformer:当前 LLM 的主流架构形态。
  3. Self-AttentionMulti-Head Attention:block 中的信息交互机制。
  4. Feed Forward Network:逐 token 非线性变换和 MoE 的基础。
  5. Normalization in TransformerResidual in Transformer:深层训练稳定性的结构条件。

Notes