基本信息

TODO

  • 阅读论文原文,整理 Multi-Query Attention 如何减少 autoregressive decoding 中的 K/V cache 写入和读取成本。
  • 回填 MHA 与 MQA 在 KV heads、memory bandwidth 和质量取舍上的差异。
  • 对照 GQA,梳理从 MQA 到 grouped sharing 的折中路线。