DeepSeek-V4 技术报告解读
一、论文概述(精简版)
DeepSeek-V4 系列是 DeepSeek 的下一代大语言模型,核心目标是打破超长上下文处理的效率瓶颈,使百万 token 上下文成为常态。
| 模型 | 总参数量 | 激活参数量 | 预训练数据 | 上下文长度 |
|---|---|---|---|---|
| DeepSeek-V4-Pro | 1.6T | 49B | 33T tokens | 100万 tokens |
| DeepSeek-V4-Flash | 284B | 13B | 32T tokens | 100万 tokens |
关键效率指标(100万 token 上下文 vs DeepSeek-V3.2):
| 指标 | V4-Pro | V4-Flash |
|---|---|---|
| 单 token 推理 FLOPs | 仅 27% | 仅 10% |
| KV Cache 大小 | 仅 10% | 仅 7% |
架构继承 DeepSeekMoE + Multi-Token Prediction,新增三大核心改进:混合注意力(CSA+HCA)、流形约束超连接(mHC)、Muon 优化器。
二、十大创新点
1. 压缩稀疏注意力(CSA)
将每 m=4 个 token 的 KV Cache 压缩为一个条目,然后通过”闪电索引器(Lightning Indexer)”进行 top-k 稀疏选择。具体流程:
- 计算两组 KV 条目 C_a / C_b 及其压缩权重
- 每 m 个条目通过加权求和压缩为一个
- 闪电索引器用低秩方式生成索引查询,计算注意力分数并选 top-k
- 结合滑动窗口 KV 条目增强局部细粒度依赖
2. 重度压缩注意力(HCA)
将每 m’=128 个 token 的 KV Cache 压缩为一个条目,进行极端压缩但保持稠密注意力。与 CSA 交错使用,形成混合注意力架构。相较于 BF16 GQA8 基线,在百万上下文下 KV Cache 缩小至约 2%。
3. 流形约束超连接(mHC)
替代传统残差连接,核心思想:
- 将残差映射矩阵 B 约束到双随机矩阵流形(Birkhoff 多面体)
- 保证谱范数 <= 1,信号传播不膨胀
- 使用 Sinkhorn-Knopp 算法(20次迭代)投影
- 输入/输出映射用 Sigmoid 保证非负有界
- 参数动态生成,分为输入相关 + 输入无关两部分
- 扩展因子 n_hc = 4,计算开销仅占流水线 6.7%
4. Muon 优化器大规模应用
首次将 Muon 优化器应用于万亿参数 MoE 模型:
- 基于 Nesterov 动量 + Hybrid Newton-Schulz 迭代
- 设计混合 ZeRO 分桶策略解决”Muon 需要完整梯度矩阵”与”ZeRO 分片”的冲突
- 密集参数:限制 ZeRO 并行度 + 背包算法分桶
- MoE 参数:展平所有专家后均匀分布
- Newton-Schulz 迭代用 BF16 精度即可稳定运行
- MoE 梯度通信量化到 BF16 减半通信量
5. FP4 量化感知训练(QAT)
对 MoE 专家权重和 CSA 索引器 QK 路径进行 MXFP4 量化感知训练:
- FP4→FP8 反量化是无损的(FP8 E4M3 动态范围更大)
- 完全复用现有 FP8 训练框架,无需修改反向传播
- 推理和 RL rollout 时直接使用真实 FP4 权重
- 在未来硬件上 FP4xFP8 理论可比 FP8xFP8 再快 1⁄3
6. 细粒度计算-通信重叠 MoE 融合核
设计单一 Mega-Kernel 实现 MoE 中计算、通信、内存访问完全重叠:
- 采用 wave-based 调度:当前 wave 计算 ↔ 下一 wave 通信并行
- pull-based 跨 GPU 读取(避免 push 的通知延迟)
- 对比非融合基线实现 1.50~1.96x 加速
- 在 NVIDIA GPU 和华为昇腾 NPU 上均验证有效
- 已开源为 MegaMoE(DeepGEMM 组件)
7. 多教师在策略蒸馏(OPD)
后训练用 OPD 替代传统混合 RL:
- 10+ 个领域教师模型 → 1 个统一学生模型
- 使用全词表 reverse KL loss(非 token 级简化),梯度更稳定
- 教师权重按需从分布式存储加载(ZeRO-like 分片)
- 缓存教师最后一层隐藏状态,训练时按需重算 logits
- 按教师索引排序样本,确保同时仅一个教师预测头驻留 GPU
8. 训练稳定性技巧:预判式路由 + SwiGLU Clamping
解决万亿参数 MoE 训练中的 loss spike 问题:
- 预判式路由(Anticipatory Routing):step t 的路由索引用历史参数 θ(t-Δt) 计算,打破路由反馈环路。自动检测机制仅在 loss spike 时触发,额外开销约 20%
- SwiGLU Clamping:线性分量限制在 [-10, 10],门控分量上界 10,有效消除离群值
9. 交错思考 + 快速指令
- 交错思考(Interleaved Thinking):工具调用场景中完整保留跨轮次推理痕迹(V3.2 会在新用户消息时丢弃),百万上下文使这成为可能
- 快速指令(Quick Instruction):在输入序列末尾追加特殊 token(
<|action|>/<|title|>/<|query|>等)表示辅助任务,直接复用 KV Cache,避免重复 prefill,显著降低 TTFT
10. 异构 KV Cache 管理 + 磁盘存储
针对混合注意力产生的多种 KV 条目类型:
- 状态缓存:预分配固定大小池,管理滑动窗口注意力和未压缩尾部 token
- 稀疏注意力核协同设计:不同层可适应不同 block 大小
-
磁盘 KV Cache 三策略:
-
全量缓存:计算零冗余但写密集
- 周期性检查点:可调参数 p 平衡存储与计算
- 零缓存:不存 SWA KV,通过重计算最后 n_win·L 个 token 恢复
三、具体训练方式
3.1 预训练数据
- 总量 > 32T tokens
- 来源:数学、代码、网页、长文档、多语言
- 特别强化长文档数据(科学论文、技术报告)
- 中训阶段加入 Agent 数据
- 过滤批量自动生成/模板化内容,防止模型坍缩
- 词表 128K,继承 V3 tokenizer + 少量特殊 token
- 使用 sample-level attention masking(区别于 V3 的 document-level)
- 文档打包减少截断
3.2 优化器配置
| 参数组 | 优化器 | 核心超参 |
|---|---|---|
| 大部分参数 | Muon | momentum=0.95, weight_decay=0.1, update RMS rescale=0.18 |
| Embedding / 预测头 / RMSNorm | AdamW | β1=0.9, β2=0.95, ε=10⁻²⁰, weight_decay=0.1 |
3.3 训练超参数
| 超参 | V4-Flash | V4-Pro |
|---|---|---|
| 总 tokens | 32T | 33T |
| 最大 batch size | 75.5M tokens | 94.4M tokens |
| 峰值学习率 | 2.7×10⁻⁴ | 2.0×10⁻⁴ |
| 终止学习率 | 2.7×10⁻⁵ | 2.0×10⁻⁵ |
| LR 预热 | 前 2000 步线性 | 前 2000 步线性 |
| LR 衰减 | 余弦退火 | 余弦退火 |
| MTP 损失权重 | 0.3 → 0.1(衰减后) | 0.3 → 0.1(衰减后) |
| 负载均衡偏置速度 | 0.001 | 0.001 |
| 平衡损失权重 | 0.0001 | 0.0001 |
3.4 序列长度调度
4K → 16K → 64K → 1M(渐进式扩展)
- 前 1T tokens 使用稠密注意力预热
- 在 64K 阶段引入稀疏注意力
- 两阶段引入:先预热闪电索引器 → 再全面稀疏训练
3.5 模型结构细节
| 参数 | V4-Flash | V4-Pro |
|---|---|---|
| Transformer 层数 | 43 | 61 |
| 隐藏维度 d | 4096 | 7168 |
| Query Head 数 n_h | 64 | 128 |
| Head 维度 c | 512 | 512 |
| 查询压缩维度 d_c | 1024 | 1536 |
| CSA 压缩率 m | 4 | 4 |
| HCA 压缩率 m’ | 128 | 128 |
| CSA attention top-k | 512 | 1024 |
| 滑动窗口大小 | 128 | 128 |
| 共享专家数 | 1 | 1 |
| 路由专家数 | 256 | 384 |
| 激活专家数/token | 6 | 6 |
| 专家中间维度 | 2048 | 3072 |
| Hash 路由层数 | 前 3 层 | 前 3 层 |
| mHC 扩展因子 | 4 | 4 |
| MTP 深度 | 1 | 1 |
3.6 后训练流程
预训练 Base → 领域专家训练(SFT → RL/GRPO)→ 在策略蒸馏(OPD)→ 最终模型
领域专家包括:数学、编程、Agent、指令遵循等
- 三种推理模式:Non-think / Think High / Think Max
- 生成式奖励模型(GRM)替代传统标量奖励模型
- 全词表 OPD 蒸馏合并 10+ 教师
四、训练硬件分析
报告未直接披露 GPU 型号和集群规模,但从以下线索可推断:
| 线索 | 来源 | 推断 |
|---|---|---|
| “validated on both NVIDIA GPUs and HUAWEI Ascend NPUs” | 第 3.1 节 | 双平台验证 |
| 广泛使用 FP8 训练 + FP4 QAT | 第 3.4 节 | Hopper 架构(H100/H800)原生支持 |
| DeepGEMM + CUDA Mega-Kernel | 第 3.1 节 | NVIDIA GPU 为主训练平台 |
| DualPipe 1F1B 流水线 | 第 3.5 节 | 延续 V3 框架(V3 明确使用 2048 块 H800) |
| pull-based 跨 GPU RDMA 通信 | 第 3.1 节 | 与 H800 NVLink/NVSwitch 拓扑一致 |
| “大规模 GPU 集群”中频繁硬件故障 | 第 5.2 节 | 千卡级以上规模 |
| 集群级可抢占任务调度器 | 第 5.2 节 | 统一大规模 GPU 资源池 |
| FP4xFP8 峰值 FLOPs 与 FP8xFP8 相同 | 第 1 节 | 符合 H100/H800 Tensor Core 规格 |
结论:主训练平台为 NVIDIA H800 GPU,集群规模大概率 >= 2048 卡(V3 即为此规模)。华为昇腾 NPU 用于验证和部分部署。
五、性能亮点
- 知识:V4-Pro-Max 在 SimpleQA / Chinese-SimpleQA 上大幅领先开源模型,与 Gemini-3.1-Pro 差距显著缩小
- 推理:V4-Pro-Max 超越 GPT-5.2 和 Gemini-3.0-Pro,略低于 GPT-5.4 / Gemini-3.1-Pro(约落后 3~6 个月)
- 编程竞赛:首次开源模型在 Codeforces 上匹配闭源模型(GPT-5.4 级别),V4-Pro-Max 排名人类第 23
- 形式化数学:Putnam-2025 达到 120⁄120 满分
- Agent:与 Kimi-K2.6 / GLM-5.1 持平,内部评测超过 Claude Sonnet 4.5 接近 Opus 4.5
- 百万上下文:MRCR 任务超越 Gemini-3.1-Pro
- 中文写作:功能写作 62.7% vs Gemini-3.1-Pro 的 34.1%
- 代码 Agent:内部 R&D 基准 67% pass rate,接近 Opus 4.5 的 70%