DeepSeekMath-V2
DeepSeekMath-V2 是由 DeepSeek-AI 发布的 AI 模型,发布时间为 2025-11-27,定位为 推理大模型,参数规模约为 6850.0B,上下文长度为 108K,采用 Apache 2.0 许可。
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
DeepSeekMath-V2 当前已收录的代表性评测结果包括 IMO-ProofBench(1 / 16,得分 99)、IMO-ProofBench Advanced(1 / 8,得分 61.90)。 本页还汇总了参数规模、上下文长度与 API 价格,便于结合评测结果与部署约束一起判断模型适配度。
DeepSeekAI 发布了可自证数学推理模型 DeepSeekMath-V2。该模型在自然语言证明生成中引入 LLM 验证器作为奖励信号,目标是统一“答案正确性”与“推理可核验性”的表现。
仅以“最终答案正确”作为优化目标,在定理证明等任务上容易遇到上限。DeepSeekMath-V2 通过训练一个 LLM 验证器(verifier),再以其作为奖励模型去优化证明生成器(generator),促使生成器在给出最终答案前自查并修复推理漏洞。在放大测试时计算量(scaled test-time compute)的设定下,官方示例显示该模型在 IMO 2025 / CMO 2024 达到金牌水平,并在 Putnam 2024 取得 118/120 的接近满分成绩。
适配场景
现实约束
项信息
模型名DeepSeekMath-V2
任务定位数学推理 / 定理证明(强调“可自证”的推理链)
参数量685B(BF16 / F8_E4M3 / F32 权重)
上下文≈108K tokens(“DeepSeek 108k” 标签)
许可Apache-2.0
评测要点IMO 2025 / CMO 2024 金牌水平;Putnam 2024 118/120(放大测试时计算量)
基座/推理基于 DeepSeek-V3.2-Exp-Base;推理参考 DeepSeek-V3.2-Exp
在线 Demo暂无官方交互页(需自建/等待托管)
DeepSeek-Prover-V2(671B) 主攻 Lean4 形式化定理证明 与 ProverBench;DeepSeekMath-V2 则聚焦自然语言数学推理/证明生成 + 自我验证。两者方向相邻但并不等同,可互参其研究脉络与评测设置。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
