Transformer 模块负责整理标准 Transformer 架构及其核心组成,包括 block 结构、attention、FFN、残差、归一化和 decoder-only 变体。
Reading Path
- Transformer:整体结构和训练/推理关系。
- Decoder-only Transformer:当前 LLM 的主流架构形态。
- Self-Attention 与 Multi-Head Attention:block 中的信息交互机制。
- Feed Forward Network:逐 token 非线性变换和 MoE 的基础。
- Normalization in Transformer 与 Residual in Transformer:深层训练稳定性的结构条件。
Notes
- Transformer
- Decoder-only Transformer
- Encoder-Decoder Transformer
- Feed Forward Network
- Normalization in Transformer
- Residual in Transformer