基本信息
- Title: DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
- Source type: paper
- Related topic notes: Multi-Head Latent Attention, Mixture of Experts, DeepSeek
TODO
- 阅读论文原文,整理 MLA 的 low-rank KV compression、RoPE decoupling 和 KV Cache 节省机制。
- 回填 DeepSeekMoE 与 MLA 在高效 LLM 架构中的分工。
- 对照 DeepSeek-V3 技术报告,梳理 MLA 与后续架构演进。