Attention 模块负责整理注意力机制及其现代变体,包括 self-attention、multi-head attention、MQA、GQA、滑动窗口注意力等。

Reading Path

  1. Attention 机制:Q/K/V、attention score、mask 和复杂度。
  2. Self-Attention:同一序列内部的信息交互。
  3. Multi-Head Attention:多头子空间和 KV Cache 基线。
  4. MQAGQAMLA:降低 KV Cache 的结构路线。
  5. Sliding Window AttentionHybrid Attention:长上下文下的稀疏、压缩和混合 attention。

Notes