加载中...
加载中...
DeepSeekMath-V2
Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology
DeepSeekAI 发布了可自证数学推理模型 DeepSeekMath-V2。该模型在自然语言证明生成中引入 LLM 验证器作为奖励信号,目标是统一“答案正确性”与“推理可核验性”的表现。
仅以“最终答案正确”作为优化目标,在定理证明等任务上容易遇到上限。DeepSeekMath-V2 通过训练一个 LLM 验证器(verifier),再以其作为奖励模型去优化证明生成器(generator),促使生成器在给出最终答案前自查并修复推理漏洞。在放大测试时计算量(scaled test-time compute)的设定下,官方示例显示该模型在 IMO 2025 / CMO 2024 达到金牌水平,并在 Putnam 2024 取得 118/120 的接近满分成绩。
适配场景
现实约束
项信息
模型名DeepSeekMath-V2
任务定位数学推理 / 定理证明(强调“可自证”的推理链)
参数量685B(BF16 / F8_E4M3 / F32 权重)
上下文≈108K tokens(“DeepSeek 108k” 标签)
许可Apache-2.0
评测要点IMO 2025 / CMO 2024 金牌水平;Putnam 2024 118/120(放大测试时计算量)
基座/推理基于 DeepSeek-V3.2-Exp-Base;推理参考 DeepSeek-V3.2-Exp
在线 Demo暂无官方交互页(需自建/等待托管)
DeepSeek-Prover-V2(671B) 主攻 Lean4 形式化定理证明 与 ProverBench;DeepSeekMath-V2 则聚焦自然语言数学推理/证明生成 + 自我验证。两者方向相邻但并不等同,可互参其研究脉络与评测设置。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
