Administrator
发布于 2026-04-24 / 0 阅读
0
0

DeepSeek V4 预览版本上线并同步开源,哪些亮点值得关注?

DeepSeek-V4 技术报告解读


一、论文概述(精简版)

DeepSeek-V4 系列是 DeepSeek 的下一代大语言模型,核心目标是打破超长上下文处理的效率瓶颈,使百万 token 上下文成为常态。

模型 总参数量 激活参数量 预训练数据 上下文长度
DeepSeek-V4-Pro 1.6T 49B 33T tokens 100万 tokens
DeepSeek-V4-Flash 284B 13B 32T tokens 100万 tokens

关键效率指标(100万 token 上下文 vs DeepSeek-V3.2):

指标 V4-Pro V4-Flash
单 token 推理 FLOPs 仅 27% 仅 10%
KV Cache 大小 仅 10% 仅 7%

架构继承 DeepSeekMoE + Multi-Token Prediction,新增三大核心改进:混合注意力(CSA+HCA)、流形约束超连接(mHC)、Muon 优化器。


二、十大创新点

1. 压缩稀疏注意力(CSA)

将每 m=4 个 token 的 KV Cache 压缩为一个条目,然后通过”闪电索引器(Lightning Indexer)”进行 top-k 稀疏选择。具体流程:

  • 计算两组 KV 条目 C_a / C_b 及其压缩权重
  • 每 m 个条目通过加权求和压缩为一个
  • 闪电索引器用低秩方式生成索引查询,计算注意力分数并选 top-k
  • 结合滑动窗口 KV 条目增强局部细粒度依赖

2. 重度压缩注意力(HCA)

将每 m’=128 个 token 的 KV Cache 压缩为一个条目,进行极端压缩但保持稠密注意力。与 CSA 交错使用,形成混合注意力架构。相较于 BF16 GQA8 基线,在百万上下文下 KV Cache 缩小至约 2%

3. 流形约束超连接(mHC)

替代传统残差连接,核心思想:

  • 将残差映射矩阵 B 约束到双随机矩阵流形(Birkhoff 多面体)
  • 保证谱范数 <= 1,信号传播不膨胀
  • 使用 Sinkhorn-Knopp 算法(20次迭代)投影
  • 输入/输出映射用 Sigmoid 保证非负有界
  • 参数动态生成,分为输入相关 + 输入无关两部分
  • 扩展因子 n_hc = 4,计算开销仅占流水线 6.7%

4. Muon 优化器大规模应用

首次将 Muon 优化器应用于万亿参数 MoE 模型:

  • 基于 Nesterov 动量 + Hybrid Newton-Schulz 迭代
  • 设计混合 ZeRO 分桶策略解决”Muon 需要完整梯度矩阵”与”ZeRO 分片”的冲突
  • 密集参数:限制 ZeRO 并行度 + 背包算法分桶
  • MoE 参数:展平所有专家后均匀分布
  • Newton-Schulz 迭代用 BF16 精度即可稳定运行
  • MoE 梯度通信量化到 BF16 减半通信量

5. FP4 量化感知训练(QAT)

对 MoE 专家权重和 CSA 索引器 QK 路径进行 MXFP4 量化感知训练:

  • FP4→FP8 反量化是无损的(FP8 E4M3 动态范围更大)
  • 完全复用现有 FP8 训练框架,无需修改反向传播
  • 推理和 RL rollout 时直接使用真实 FP4 权重
  • 在未来硬件上 FP4xFP8 理论可比 FP8xFP8 再快 1⁄3

6. 细粒度计算-通信重叠 MoE 融合核

设计单一 Mega-Kernel 实现 MoE 中计算、通信、内存访问完全重叠:

  • 采用 wave-based 调度:当前 wave 计算 ↔ 下一 wave 通信并行
  • pull-based 跨 GPU 读取(避免 push 的通知延迟)
  • 对比非融合基线实现 1.50~1.96x 加速
  • 在 NVIDIA GPU 和华为昇腾 NPU 上均验证有效
  • 已开源为 MegaMoE(DeepGEMM 组件)

7. 多教师在策略蒸馏(OPD)

后训练用 OPD 替代传统混合 RL:

  • 10+ 个领域教师模型 → 1 个统一学生模型
  • 使用全词表 reverse KL loss(非 token 级简化),梯度更稳定
  • 教师权重按需从分布式存储加载(ZeRO-like 分片)
  • 缓存教师最后一层隐藏状态,训练时按需重算 logits
  • 按教师索引排序样本,确保同时仅一个教师预测头驻留 GPU

8. 训练稳定性技巧:预判式路由 + SwiGLU Clamping

解决万亿参数 MoE 训练中的 loss spike 问题:

  • 预判式路由(Anticipatory Routing):step t 的路由索引用历史参数 θ(t-Δt) 计算,打破路由反馈环路。自动检测机制仅在 loss spike 时触发,额外开销约 20%
  • SwiGLU Clamping:线性分量限制在 [-10, 10],门控分量上界 10,有效消除离群值

9. 交错思考 + 快速指令

  • 交错思考(Interleaved Thinking):工具调用场景中完整保留跨轮次推理痕迹(V3.2 会在新用户消息时丢弃),百万上下文使这成为可能
  • 快速指令(Quick Instruction):在输入序列末尾追加特殊 token(<|action|> / <|title|> / <|query|> 等)表示辅助任务,直接复用 KV Cache,避免重复 prefill,显著降低 TTFT

10. 异构 KV Cache 管理 + 磁盘存储

针对混合注意力产生的多种 KV 条目类型:

  • 状态缓存:预分配固定大小池,管理滑动窗口注意力和未压缩尾部 token
  • 稀疏注意力核协同设计:不同层可适应不同 block 大小
  • 磁盘 KV Cache 三策略

  • 全量缓存:计算零冗余但写密集

  • 周期性检查点:可调参数 p 平衡存储与计算
  • 零缓存:不存 SWA KV,通过重计算最后 n_win·L 个 token 恢复

三、具体训练方式

3.1 预训练数据

  • 总量 > 32T tokens
  • 来源:数学、代码、网页、长文档、多语言
  • 特别强化长文档数据(科学论文、技术报告)
  • 中训阶段加入 Agent 数据
  • 过滤批量自动生成/模板化内容,防止模型坍缩
  • 词表 128K,继承 V3 tokenizer + 少量特殊 token
  • 使用 sample-level attention masking(区别于 V3 的 document-level)
  • 文档打包减少截断

3.2 优化器配置

参数组 优化器 核心超参
大部分参数 Muon momentum=0.95, weight_decay=0.1, update RMS rescale=0.18
Embedding / 预测头 / RMSNorm AdamW β1=0.9, β2=0.95, ε=10⁻²⁰, weight_decay=0.1

3.3 训练超参数

超参 V4-Flash V4-Pro
总 tokens 32T 33T
最大 batch size 75.5M tokens 94.4M tokens
峰值学习率 2.7×10⁻⁴ 2.0×10⁻⁴
终止学习率 2.7×10⁻⁵ 2.0×10⁻⁵
LR 预热 前 2000 步线性 前 2000 步线性
LR 衰减 余弦退火 余弦退火
MTP 损失权重 0.3 → 0.1(衰减后) 0.3 → 0.1(衰减后)
负载均衡偏置速度 0.001 0.001
平衡损失权重 0.0001 0.0001

3.4 序列长度调度

4K → 16K → 64K → 1M(渐进式扩展)

  • 前 1T tokens 使用稠密注意力预热
  • 在 64K 阶段引入稀疏注意力
  • 两阶段引入:先预热闪电索引器 → 再全面稀疏训练

3.5 模型结构细节

参数 V4-Flash V4-Pro
Transformer 层数 43 61
隐藏维度 d 4096 7168
Query Head 数 n_h 64 128
Head 维度 c 512 512
查询压缩维度 d_c 1024 1536
CSA 压缩率 m 4 4
HCA 压缩率 m’ 128 128
CSA attention top-k 512 1024
滑动窗口大小 128 128
共享专家数 1 1
路由专家数 256 384
激活专家数/token 6 6
专家中间维度 2048 3072
Hash 路由层数 前 3 层 前 3 层
mHC 扩展因子 4 4
MTP 深度 1 1

3.6 后训练流程

预训练 Base → 领域专家训练(SFT → RL/GRPO)→ 在策略蒸馏(OPD)→ 最终模型

领域专家包括:数学、编程、Agent、指令遵循等

  • 三种推理模式:Non-think / Think High / Think Max
  • 生成式奖励模型(GRM)替代传统标量奖励模型
  • 全词表 OPD 蒸馏合并 10+ 教师

四、训练硬件分析

报告未直接披露 GPU 型号和集群规模,但从以下线索可推断:

线索 来源 推断
“validated on both NVIDIA GPUs and HUAWEI Ascend NPUs” 第 3.1 节 双平台验证
广泛使用 FP8 训练 + FP4 QAT 第 3.4 节 Hopper 架构(H100/H800)原生支持
DeepGEMM + CUDA Mega-Kernel 第 3.1 节 NVIDIA GPU 为主训练平台
DualPipe 1F1B 流水线 第 3.5 节 延续 V3 框架(V3 明确使用 2048 块 H800)
pull-based 跨 GPU RDMA 通信 第 3.1 节 与 H800 NVLink/NVSwitch 拓扑一致
“大规模 GPU 集群”中频繁硬件故障 第 5.2 节 千卡级以上规模
集群级可抢占任务调度器 第 5.2 节 统一大规模 GPU 资源池
FP4xFP8 峰值 FLOPs 与 FP8xFP8 相同 第 1 节 符合 H100/H800 Tensor Core 规格

结论:主训练平台为 NVIDIA H800 GPU,集群规模大概率 >= 2048 卡(V3 即为此规模)。华为昇腾 NPU 用于验证和部分部署。


五、性能亮点

  • 知识:V4-Pro-Max 在 SimpleQA / Chinese-SimpleQA 上大幅领先开源模型,与 Gemini-3.1-Pro 差距显著缩小
  • 推理:V4-Pro-Max 超越 GPT-5.2 和 Gemini-3.0-Pro,略低于 GPT-5.4 / Gemini-3.1-Pro(约落后 3~6 个月)
  • 编程竞赛:首次开源模型在 Codeforces 上匹配闭源模型(GPT-5.4 级别),V4-Pro-Max 排名人类第 23
  • 形式化数学:Putnam-2025 达到 120⁄120 满分
  • Agent:与 Kimi-K2.6 / GLM-5.1 持平,内部评测超过 Claude Sonnet 4.5 接近 Opus 4.5
  • 百万上下文:MRCR 任务超越 Gemini-3.1-Pro
  • 中文写作:功能写作 62.7% vs Gemini-3.1-Pro 的 34.1%
  • 代码 Agent:内部 R&D 基准 67% pass rate,接近 Opus 4.5 的 70%

评论