Attention 模块负责整理注意力机制及其现代变体,包括 self-attention、multi-head attention、MQA、GQA、滑动窗口注意力等。
Reading Path
- Attention 机制:Q/K/V、attention score、mask 和复杂度。
- Self-Attention:同一序列内部的信息交互。
- Multi-Head Attention:多头子空间和 KV Cache 基线。
- MQA、GQA、MLA:降低 KV Cache 的结构路线。
- Sliding Window Attention 与 Hybrid Attention:长上下文下的稀疏、压缩和混合 attention。
Notes
- Attention 机制
- Self-Attention
- Multi-Head Attention
- Multi-Query Attention
- Grouped-Query Attention
- Multi-Head Latent Attention
- Sliding Window Attention
- Hybrid Attention