DeepSeek

问题背景

DeepSeek 是近几年开放模型生态中非常重要的一条路线。它的重要性不只来自模型效果，也来自它把高性价比训练、MoE 架构、高效 attention、强化学习推理能力和开放技术报告结合在一起。

理解 DeepSeek 时，最好不要只把它看成“某个聊天模型”或“某个推理模型”。它更像一组互相连接的模型与训练方法：

DeepSeek-V2 / V2.5：验证 Multi-Head Latent Attention 和 DeepSeekMoE 的高效路线。
DeepSeek-V3：大规模 MoE base / chat model，强调 671B total parameters、37B activated parameters、MLA、DeepSeekMoE、auxiliary-loss-free load balancing 和 multi-token prediction。
DeepSeek-R1-Zero：从 base model 出发，用强化学习直接激发 reasoning 行为。
DeepSeek-R1：结合 cold-start data、RL、SFT 和蒸馏，形成更可用的推理模型。
Distilled R1 models：把大模型推理能力迁移到较小 dense models 上，降低使用门槛。
DeepSeek-V4：在 V3 的 DeepSeekMoE 和 MTP 路线之上，引入 Hybrid Attention、mHC、Muon optimizer、1M context 和更统一的 thinking / non-thinking 使用方式。

DeepSeek 对知识库的价值在于，它同时连接 Mixture of Experts、高效推理、长上下文、Reinforcement Learning、Knowledge Distillation、reasoning model 和 agentic coding。

家族定位

DeepSeek-V3 是 DeepSeek 家族中的通用 MoE language model。根据技术报告，它有 671B total parameters，但每个 token 激活 37B parameters。它使用 MLA 提升推理效率，使用 DeepSeekMoE 降低训练成本，并在 14.8T tokens 上预训练，再经过 SFT 和 RL 阶段增强能力。

DeepSeek-R1 则是 reasoning model 路线。它关注的问题不是单纯扩大模型，而是如何通过强化学习激发模型的长链推理、自我反思、验证和策略调整能力。R1 系列的重点从“模型能不能生成答案”推进到“模型能不能在生成过程中进行更长、更可验证的推理”。

DeepSeek-V4 进一步尝试把高效基础模型、长上下文、推理模式和 agent 能力统一起来。它仍然是 MoE language model series，但新增 Hybrid Attention、Manifold-Constrained Hyper-Connections 和 Muon optimizer，并把 1M context 作为官方服务的标准能力。

因此，DeepSeek 家族可以粗略分成三条互相连接的主线：

主线	代表模型	核心问题
高效基础模型	DeepSeek-V2, DeepSeek-V3	如何用 MoE、MLA 和工程优化训练高性价比大模型
推理模型	DeepSeek-R1-Zero, DeepSeek-R1	如何用 RL 激发 reasoning 能力，并通过蒸馏降低部署成本
统一长上下文与 Agent 模型	DeepSeek-V4-Flash, DeepSeek-V4-Pro	如何把 MoE、长上下文、thinking modes 和 agent/tool-use 能力整合到同一代模型中

DeepSeek-V3 的架构重点

DeepSeek-V3 的技术报告把模型架构概括为三个关键点：MLA、DeepSeekMoE 和 multi-token prediction。

Multi-Head Latent Attention

Multi-Head Latent Attention，简称 MLA，是 DeepSeek 用来提升推理效率的 attention 设计。它的核心动机和 KV Cache 有关：自回归推理时，模型需要为历史 token 保存 K/V states；上下文越长、batch 越大，KV Cache 越容易成为显存和带宽瓶颈。

MLA 试图通过 latent representation 压缩 attention 中需要缓存和读取的信息，从而降低推理成本。和 Grouped-Query Attention 类似，它也是围绕 KV Cache 成本进行设计，但具体机制不同：GQA 通过多个 query heads 共享较少的 K/V heads 来降低缓存；MLA 则通过 latent compression 改变 K/V 表示方式。

在这篇家族页里，先把 MLA 理解为 DeepSeek 系列的高效 attention 路线即可；更完整的公式和实现细节适合单独写成 Multi-Head Latent Attention 笔记。

DeepSeekMoE

DeepSeek-V3 的 FFN 部分采用 DeepSeekMoE。相比传统 MoE，DeepSeekMoE 强调 finer-grained experts，并区分 shared experts 和 routed experts。

Shared experts：所有 token 都会使用，提供通用能力。
Routed experts：由 router 针对 token 选择，提供稀疏容量。
Finer-grained experts：把 expert 切得更细，使 routing 更灵活。

这个设计和 Mixture of Experts 中的基本思想一致：模型拥有很大的 total parameters，但每个 token 只激活其中一部分参数。DeepSeek-V3 的公开数字是 671B total parameters / 37B activated parameters。理解这个数字时要注意：37B activated parameters 更接近每 token 计算路径，671B total parameters 仍然影响容量、存储和部署复杂度。

Auxiliary-loss-free load balancing

MoE 的一个核心难点是负载均衡。如果 router 总把 token 发给少数 experts，会造成 expert overload、训练不稳定和容量浪费。传统方法常加入 auxiliary loss 来鼓励负载均衡，但这个 loss 如果过强，可能干扰模型按内容选择 expert。

DeepSeek-V3 技术报告强调 auxiliary-loss-free load balancing，目标是在减少性能损害的同时保持 expert load 平衡。这个点很关键，因为它说明 DeepSeek 的 MoE 路线不只是“堆更多 experts”，而是在解决 MoE 训练中的 routing collapse 和 load balance trade-off。

Multi-Token Prediction

DeepSeek-V3 还使用 multi-token prediction training objective。标准语言模型通常预测下一个 token，而 MTP 让模型在训练中预测多个未来 token。它的目标是增强模型的训练信号，提高表示学习和生成能力。

需要谨慎理解：MTP 不是把自回归生成改成一次性生成多个 token。推理时模型仍然可以按自回归方式生成；MTP 更多是训练目标上的增强。

DeepSeek-V4 的统一路线

DeepSeek-V4 是 V3 / R1 之后的重要更新。根据 DeepSeek 官方技术文档和 release note，V4 包含两个主要版本：

模型	总参数量	每 token 激活参数量	定位
DeepSeek-V4-Pro	1.6T	49B	更强能力版本，面向复杂推理、agentic coding 和高质量任务
DeepSeek-V4-Flash	约 285B	13B	更快、更经济的版本，适合成本敏感场景

DeepSeek-V4 仍然保留 DeepSeekMoE framework 和 Multi-Token Prediction strategy，这说明它不是抛弃 V3，而是在 V3 的 MoE + MTP 基础上继续演进。它的新增重点主要在 Hybrid Attention、mHC、Muon optimizer、1M context 和 thinking modes。

Hybrid Attention

V4 引入 Hybrid Attention Architecture，用于提升长上下文效率。官方 model card 将它描述为 Compressed Sparse Attention 和 Heavily Compressed Attention 的组合：

Compressed Sparse Attention，简称 CSA：沿 sequence dimension 压缩 KV cache，并结合 DeepSeek Sparse Attention。
Heavily Compressed Attention，简称 HCA：使用更强压缩，同时保留 dense attention。

这个设计的目标是降低 1M context 下的 compute 和 memory 成本。它和 V3 的 MLA 有连续性：二者都围绕长上下文和 KV Cache 成本展开；但 V4 的重点从 latent compression 进一步转向 hybrid attention，把 sparse attention 和更重的压缩结合起来。

Manifold-Constrained Hyper-Connections

V4 还引入 Manifold-Constrained Hyper-Connections，简称 mHC。官方说明中，mHC 将 residual mapping 约束到 doubly stochastic matrices 的流形，也就是 Birkhoff polytope，以增强 signal propagation stability，同时保持模型表达能力。

在当前知识库里，mHC 可以先理解为 V4 的连接结构创新。它关注的不是“token 之间如何 attention”，也不是“token 路由到哪个 expert”，而是深层网络中 residual / hidden-state propagation 如何更稳定。由于公开资料对数学细节展开有限，暂时不应把 mHC 写成过度确定的完整理论。

Muon Optimizer

DeepSeek-V4 使用 Muon optimizer，官方定位是更快收敛和更稳定训练。这里也需要保守处理：如果没有更完整的 technical report 或 optimizer 论文支撑，不应在 DeepSeek 家族页里展开具体更新公式，只需记录它是 V4 训练稳定性相关的关键组件。

1M context 与 thinking modes

DeepSeek-V4 支持 1M context，官方 release note 还强调 1M context 已成为所有官方 DeepSeek 服务的默认标准。这和 V4 的 Hybrid Attention 直接相关：长上下文不只是模型参数问题，也依赖 attention 结构、KV Cache 压缩、推理系统和服务端缓存策略。

V4 还提供不同 reasoning modes。Model card 中列出：

Non-think：快速、直觉式回答。
Think High：更审慎的逻辑分析。
Think Max：最大容量的扩展推理。

API release note 中也使用 Thinking / Non-Thinking modes 的说法。这说明 DeepSeek 正在把 V3 的通用模型路线和 R1 的推理模型路线统一为同一个产品化接口：用户不一定再需要显式区分 deepseek-chat 和 deepseek-reasoner，而是通过 mode 控制推理深度。

Agent 与 Tool Use

DeepSeek-V4 明确强调 agentic capabilities，尤其是 agentic coding、tool-use 和长上下文任务。官方 release note 提到 V4 已集成到 Claude Code、OpenClaw、OpenCode 等 agent 场景，并用于 DeepSeek 内部 agentic coding。

这说明 V4 的定位不只是“更强聊天模型”，而是面向更长任务链条：读取大量上下文、调用工具、修改代码、生成文档、完成多步任务。对知识库来说，这会连接到 Agents、Tool Use 和 KV Cache 等主题。

DeepSeek-R1 的推理路线

DeepSeek-R1 的核心问题是：能否通过 reinforcement learning 激发模型的 reasoning capability，而不是完全依赖大量人工标注的 reasoning traces。

根据 DeepSeek-R1 论文摘要，RL 训练可以促使模型出现一些推理模式，例如：

self-reflection：模型在推理中反思已有步骤。
verification：模型检查中间结果或答案合理性。
dynamic strategy adaptation：模型在推理中调整解题策略。

这让 DeepSeek-R1 成为 reasoning model 讨论中的重要节点。它表明模型推理能力不只是来自更多 SFT 数据，也可以通过可验证任务上的 RL 信号被激发。

R1-Zero 与 R1

DeepSeek-R1-Zero 和 DeepSeek-R1 的区别很重要。

R1-Zero 更强调“从 base model 直接进行 RL”，用于观察 reasoning 行为是否能在没有人工标注推理轨迹的情况下涌现。这个方向有研究价值，但纯 RL 过程也可能带来可读性、语言混杂、输出格式不稳定等问题。

DeepSeek-R1 则更像工程上更可用的版本：它在推理能力之外，还需要考虑输出可读性、指令跟随、格式稳定和蒸馏到较小模型。也就是说，R1-Zero 更像验证“RL 能不能激发推理”，R1 更像把这种能力整理成可发布、可使用的模型。

蒸馏的意义

DeepSeek-R1 的另一个重要影响是推动了 reasoning distillation。大推理模型在数学、代码和复杂推理上能力强，但推理成本高、延迟长、部署门槛高。蒸馏的目标是把大模型产生的 reasoning traces 或高质量答案迁移到较小模型上。

这和 Knowledge Distillation 直接相关：student model 不一定复现 teacher 的全部能力，但可以通过学习 teacher 的输出分布、推理轨迹或答案风格，获得更强的推理表现。

需要注意：蒸馏出来的 reasoning model 并不等同于 teacher model。它可能在某些 benchmark 上表现很好，但在 out-of-distribution 问题、长推理稳定性和自我纠错能力上仍然受限。

DeepSeek 为什么重要

1. 把高效架构推到前台

DeepSeek-V3 不是单纯依赖 dense scaling，而是强调 MLA、DeepSeekMoE、FP8 training、MTP 和工程优化。DeepSeek-V4 又继续强调 Hybrid Attention、mHC、Muon optimizer 和 1M context。它让开放模型社区看到：模型能力不只来自更大的 dense 参数，也来自架构和系统效率。

2. 重新强化 RL 在 reasoning 中的地位

R1 系列让强化学习重新成为 reasoning model 的核心议题。它关注的是如何通过可验证奖励训练模型产生更长、更有结构的思考过程，而不仅仅是模仿人工标注答案。

3. 推动开放模型竞争

DeepSeek 的技术报告、模型权重和蒸馏模型推动了社区复现、分析和二次开发。它也促使很多知识点变得更重要：MoE serving、KV Cache 优化、RL training、reasoning trace、distillation、long-context evaluation 和 agent evaluation。

4. 把 reasoning 与 agent 接口统一

DeepSeek-V4 的 thinking / non-thinking modes 说明 reasoning capability 正在从“单独的 reasoner 模型”变成一个可控制的模型使用模式。对应用层来说，这比单纯发布一个更强模型更重要：系统可以根据任务成本、延迟和复杂度选择不同推理深度。

设计取舍

设计点	作用	取舍
MLA	降低 attention 推理中的 KV Cache 压力	机制更复杂，需要专门理解和实现
DeepSeekMoE	用 sparse experts 扩大容量并降低每 token 计算	routing、负载均衡和部署复杂度上升
Auxiliary-loss-free balancing	减少负载均衡 loss 对性能的干扰	需要更精细的 routing 控制策略
Multi-token prediction	增强训练信号	不等于推理时一次生成多个 token
Hybrid Attention	降低 1M context 下的 compute 和 memory 成本	CSA/HCA 机制更复杂，需要结合推理系统理解
mHC	改善深层网络信号传播稳定性	公开资料有限，不宜过度推导数学细节
Muon optimizer	提升收敛速度和训练稳定性	需要结合更完整优化器资料理解
RL for reasoning	激发自我反思、验证和策略调整	训练稳定性、奖励设计和可读性更难
Distillation	把大推理模型能力迁移到小模型	student 不一定保留 teacher 的全部泛化能力

常见误解

误解一：DeepSeek 只是一个 MoE 模型

不完整。MoE 是 DeepSeek-V3/V4 的重要架构，但 DeepSeek 家族还包括 MLA、Hybrid Attention、MTP、FP8 训练、mHC、Muon optimizer、post-training、R1/RL 推理路线和蒸馏模型。只看 MoE 会低估它的系统性。

误解二：R1 的推理能力完全来自人类写好的 CoT

不准确。R1 系列的关键贡献之一就是展示 RL 可以在可验证任务中激发 reasoning patterns。虽然最终可用模型会结合多阶段训练和数据整理，但不能把它简单理解成“模仿人工 CoT”。

误解三：MoE 的 37B activated parameters 等于模型只有 37B

不对。DeepSeek-V3 是 671B total / 37B activated。每 token 计算路径接近 activated parameters，但容量、存储和部署都仍然受到 total parameters 影响。

误解四：推理模型总是更适合所有任务

不一定。Reasoning model 适合数学、代码、复杂规划和需要多步验证的任务，但在简单问答、低延迟交互和格式固定任务上，长推理可能增加成本和延迟，甚至引入不必要的复杂性。

误解五：1M context 等于所有 1M token 任务都可靠

不严谨。DeepSeek-V4 支持 1M context，这是重要的长上下文能力，但真实任务效果仍然取决于检索位置、信息密度、推理系统、prompt 结构、缓存策略和评测方式。长上下文能力应该被验证，而不是只看最大长度数字。

参考资料

DeepSeek-AI, DeepSeek-V3 Technical Report, arXiv:2412.19437.
DeepSeek-AI, DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, arXiv:2501.12948.
DeepSeek-AI, DeepSeek V4 Technical Documentation, 2026.
DeepSeek-AI, DeepSeek V4 Preview Release, 2026.

🍊 Latent Atlas 🍉

探索