基本信息
- Title: GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints
- Source type: paper
- Related topic notes: Grouped-Query Attention, Multi-Query Attention, KV Cache
TODO
- 阅读论文原文,整理 GQA 如何在 MHA 和 MQA 之间折中 KV heads 数量。
- 回填从 MHA checkpoint 转换/训练 GQA 模型的思路。
- 梳理 GQA 对 KV Cache、memory bandwidth 和质量的影响。