DeepSeek V4 预览版本上线并同步开源，哪些亮点值得关注？

DeepSeek-V4 技术报告解读

一、论文概述（精简版）

DeepSeek-V4 系列是 DeepSeek 的下一代大语言模型，核心目标是打破超长上下文处理的效率瓶颈，使百万 token 上下文成为常态。

模型	总参数量	激活参数量	预训练数据	上下文长度
DeepSeek-V4-Pro	1.6T	49B	33T tokens	100万 tokens
DeepSeek-V4-Flash	284B	13B	32T tokens	100万 tokens

关键效率指标（100万 token 上下文 vs DeepSeek-V3.2）：

指标	V4-Pro	V4-Flash
单 token 推理 FLOPs	仅 27%	仅 10%
KV Cache 大小	仅 10%	仅 7%

架构继承 DeepSeekMoE + Multi-Token Prediction，新增三大核心改进：混合注意力（CSA+HCA）、流形约束超连接（mHC）、Muon 优化器。

二、十大创新点

1. 压缩稀疏注意力（CSA）

将每 m=4 个 token 的 KV Cache 压缩为一个条目，然后通过”闪电索引器（Lightning Indexer）”进行 top-k 稀疏选择。具体流程：

计算两组 KV 条目 C_a / C_b 及其压缩权重
每 m 个条目通过加权求和压缩为一个
闪电索引器用低秩方式生成索引查询，计算注意力分数并选 top-k
结合滑动窗口 KV 条目增强局部细粒度依赖

2. 重度压缩注意力（HCA）

将每 m’=128 个 token 的 KV Cache 压缩为一个条目，进行极端压缩但保持稠密注意力。与 CSA 交错使用，形成混合注意力架构。相较于 BF16 GQA8 基线，在百万上下文下 KV Cache 缩小至约 2%。

3. 流形约束超连接（mHC）

替代传统残差连接，核心思想：

将残差映射矩阵 B 约束到双随机矩阵流形（Birkhoff 多面体）
保证谱范数 <= 1，信号传播不膨胀
使用 Sinkhorn-Knopp 算法（20次迭代）投影
输入/输出映射用 Sigmoid 保证非负有界
参数动态生成，分为输入相关 + 输入无关两部分
扩展因子 n_hc = 4，计算开销仅占流水线 6.7%

4. Muon 优化器大规模应用

首次将 Muon 优化器应用于万亿参数 MoE 模型：

基于 Nesterov 动量 + Hybrid Newton-Schulz 迭代
设计混合 ZeRO 分桶策略解决”Muon 需要完整梯度矩阵”与”ZeRO 分片”的冲突
密集参数：限制 ZeRO 并行度 + 背包算法分桶
MoE 参数：展平所有专家后均匀分布
Newton-Schulz 迭代用 BF16 精度即可稳定运行
MoE 梯度通信量化到 BF16 减半通信量

5. FP4 量化感知训练（QAT）

对 MoE 专家权重和 CSA 索引器 QK 路径进行 MXFP4 量化感知训练：

FP4→FP8 反量化是无损的（FP8 E4M3 动态范围更大）
完全复用现有 FP8 训练框架，无需修改反向传播
推理和 RL rollout 时直接使用真实 FP4 权重
在未来硬件上 FP4xFP8 理论可比 FP8xFP8 再快 1⁄3

6. 细粒度计算-通信重叠 MoE 融合核

设计单一 Mega-Kernel 实现 MoE 中计算、通信、内存访问完全重叠：

采用 wave-based 调度：当前 wave 计算 ↔ 下一 wave 通信并行
pull-based 跨 GPU 读取（避免 push 的通知延迟）
对比非融合基线实现 1.50~1.96x 加速
在 NVIDIA GPU 和华为昇腾 NPU 上均验证有效
已开源为 MegaMoE（DeepGEMM 组件）

7. 多教师在策略蒸馏（OPD）

后训练用 OPD 替代传统混合 RL：

10+ 个领域教师模型 → 1 个统一学生模型
使用全词表 reverse KL loss（非 token 级简化），梯度更稳定
教师权重按需从分布式存储加载（ZeRO-like 分片）
缓存教师最后一层隐藏状态，训练时按需重算 logits
按教师索引排序样本，确保同时仅一个教师预测头驻留 GPU

8. 训练稳定性技巧：预判式路由 + SwiGLU Clamping

解决万亿参数 MoE 训练中的 loss spike 问题：

预判式路由（Anticipatory Routing）：step t 的路由索引用历史参数 θ(t-Δt) 计算，打破路由反馈环路。自动检测机制仅在 loss spike 时触发，额外开销约 20%
SwiGLU Clamping：线性分量限制在 [-10, 10]，门控分量上界 10，有效消除离群值

9. 交错思考 + 快速指令

交错思考（Interleaved Thinking）：工具调用场景中完整保留跨轮次推理痕迹（V3.2 会在新用户消息时丢弃），百万上下文使这成为可能
快速指令（Quick Instruction）：在输入序列末尾追加特殊 token（<|action|> / <|title|> / <|query|> 等）表示辅助任务，直接复用 KV Cache，避免重复 prefill，显著降低 TTFT

10. 异构 KV Cache 管理 + 磁盘存储

针对混合注意力产生的多种 KV 条目类型：

状态缓存：预分配固定大小池，管理滑动窗口注意力和未压缩尾部 token
稀疏注意力核协同设计：不同层可适应不同 block 大小
磁盘 KV Cache 三策略：
全量缓存：计算零冗余但写密集
周期性检查点：可调参数 p 平衡存储与计算
零缓存：不存 SWA KV，通过重计算最后 n_win·L 个 token 恢复

三、具体训练方式

3.1 预训练数据

总量 > 32T tokens
来源：数学、代码、网页、长文档、多语言
特别强化长文档数据（科学论文、技术报告）
中训阶段加入 Agent 数据
过滤批量自动生成/模板化内容，防止模型坍缩
词表 128K，继承 V3 tokenizer + 少量特殊 token
使用 sample-level attention masking（区别于 V3 的 document-level）
文档打包减少截断

3.2 优化器配置

参数组	优化器	核心超参
大部分参数	Muon	momentum=0.95, weight_decay=0.1, update RMS rescale=0.18
Embedding / 预测头 / RMSNorm	AdamW	β1=0.9, β2=0.95, ε=10⁻²⁰, weight_decay=0.1

3.3 训练超参数

超参	V4-Flash	V4-Pro
总 tokens	32T	33T
最大 batch size	75.5M tokens	94.4M tokens
峰值学习率	2.7×10⁻⁴	2.0×10⁻⁴
终止学习率	2.7×10⁻⁵	2.0×10⁻⁵
LR 预热	前 2000 步线性	前 2000 步线性
LR 衰减	余弦退火	余弦退火
MTP 损失权重	0.3 → 0.1（衰减后）	0.3 → 0.1（衰减后）
负载均衡偏置速度	0.001	0.001
平衡损失权重	0.0001	0.0001

3.4 序列长度调度

4K → 16K → 64K → 1M（渐进式扩展）

前 1T tokens 使用稠密注意力预热
在 64K 阶段引入稀疏注意力
两阶段引入：先预热闪电索引器 → 再全面稀疏训练

3.5 模型结构细节

参数	V4-Flash	V4-Pro
Transformer 层数	43	61
隐藏维度 d	4096	7168
Query Head 数 n_h	64	128
Head 维度 c	512	512
查询压缩维度 d_c	1024	1536
CSA 压缩率 m	4	4
HCA 压缩率 m’	128	128
CSA attention top-k	512	1024
滑动窗口大小	128	128
共享专家数	1	1
路由专家数	256	384
激活专家数/token	6	6
专家中间维度	2048	3072
Hash 路由层数	前 3 层	前 3 层
mHC 扩展因子	4	4
MTP 深度	1	1

3.6 后训练流程

预训练 Base → 领域专家训练（SFT → RL/GRPO）→ 在策略蒸馏（OPD）→ 最终模型

领域专家包括：数学、编程、Agent、指令遵循等

三种推理模式：Non-think / Think High / Think Max
生成式奖励模型（GRM）替代传统标量奖励模型
全词表 OPD 蒸馏合并 10+ 教师

四、训练硬件分析

报告未直接披露 GPU 型号和集群规模，但从以下线索可推断：

线索	来源	推断
“validated on both NVIDIA GPUs and HUAWEI Ascend NPUs”	第 3.1 节	双平台验证
广泛使用 FP8 训练 + FP4 QAT	第 3.4 节	Hopper 架构（H100/H800）原生支持
DeepGEMM + CUDA Mega-Kernel	第 3.1 节	NVIDIA GPU 为主训练平台
DualPipe 1F1B 流水线	第 3.5 节	延续 V3 框架（V3 明确使用 2048 块 H800）
pull-based 跨 GPU RDMA 通信	第 3.1 节	与 H800 NVLink/NVSwitch 拓扑一致
“大规模 GPU 集群”中频繁硬件故障	第 5.2 节	千卡级以上规模
集群级可抢占任务调度器	第 5.2 节	统一大规模 GPU 资源池
FP4xFP8 峰值 FLOPs 与 FP8xFP8 相同	第 1 节	符合 H100/H800 Tensor Core 规格

结论：主训练平台为 NVIDIA H800 GPU，集群规模大概率 >= 2048 卡（V3 即为此规模）。华为昇腾 NPU 用于验证和部分部署。

五、性能亮点

知识：V4-Pro-Max 在 SimpleQA / Chinese-SimpleQA 上大幅领先开源模型，与 Gemini-3.1-Pro 差距显著缩小
推理：V4-Pro-Max 超越 GPT-5.2 和 Gemini-3.0-Pro，略低于 GPT-5.4 / Gemini-3.1-Pro（约落后 3~6 个月）
编程竞赛：首次开源模型在 Codeforces 上匹配闭源模型（GPT-5.4 级别），V4-Pro-Max 排名人类第 23
形式化数学：Putnam-2025 达到 120⁄120 满分
Agent：与 Kimi-K2.6 / GLM-5.1 持平，内部评测超过 Claude Sonnet 4.5 接近 Opus 4.5
百万上下文：MRCR 任务超越 Gemini-3.1-Pro
中文写作：功能写作 62.7% vs Gemini-3.1-Pro 的 34.1%
代码 Agent：内部 R&D 基准 67% pass rate，接近 Opus 4.5 的 70%

菜单

分享