DeepSeek-V4-Pro 评测分析:编程能力独树一帜,综合能力仍有短板
DeepSeek-V4-Pro 是 DeepSeek 旗下目前评测数据最完整、成绩最突出的旗舰推理模型。从 DataLearner 收录的多维度评测结果来看,这个模型的优势集中而明显——代码生成与竞技编程领域几乎无对手,同代国产推理模型难以与之抗衡。但拉开视角看,在某些综合推理维度,它并不是最强的那一个。
编程是 V4 Pro 的核心优势,且差距明显
把编程类评测单独拿出来看,数字足够说明问题。
LiveCodeBench 是目前最能反映模型真实代码能力的动态评测之一,V4 Pro 深度思考模式下得分 93.50,在 DataLearner 收录的 118 个模型中排名第一。与 Kimi K2.6(89.60)相比领先约 4 个百分点,与上一代 DeepSeek V3.2(83.30)相比提升超过 10 个百分点,与 V3.1(74.80)和 R1-0528(73.30)相比提升幅度更接近 20 个百分点。这不是小步迭代,是在编程能力上的一次系统性跃升。
Codeforces 的竞技编程评分更直观:V4 Pro 深度思考模式下达到 3206 分,而 V3.2 是 2386 分,增幅超过 800 分。竞技编程的得分曲线是非线性的,3000 分以上意味着解题能力已经接近人类顶级程序员水平,这个分数在已知模型中排名第 4,属于第一梯队。
软件工程类评测(SWE-bench 系列)的结果稍微复杂一些。SWE-bench Verified 上 V4 Pro 得分 80.60,与 Kimi K2.6 的 80.20 基本持平,略微领先。但在 SWE-bench Multilingual(多语言代码库修复)上,V4 Pro 是 76.20,Kimi K2.6 是 76.70,差距同样微小。SWE-Bench Pro(更难的公开测试集)上,V4 Pro 是 55.40,反而低于 GLM 5.1 的 58.40 和 Kimi K2.6 的 58.60。这说明 V4 Pro 在竞技编程和代码生成上的优势是真实的,但在解决复杂工程软件缺陷这类任务上,它与竞品之间的差距已经微乎其微,甚至略处下风。
数学推理方向,V4 Pro 是同代国产模型里的最强选手
IMO-AnswerBench 是针对国际数学奥林匹克题目的评测,对于模型的深度数学推理能力有很强的区分度。V4 Pro 得分 89.80,GLM 5.1 是 83.80,Kimi K2.6 是 86.00,V4 Pro 领先幅度分别约 6 和 4 个百分点。在 DataLearner 收录的 17 个参测模型里,V4 Pro 排名第 3,已经属于全球前列。
GPQA Diamond 是科学推理和研究生级知识问答,V4 Pro 得分 90.10,Kimi K2.6 是 90.50,GLM 5.1 是 86.20。三者差距很小,V4 Pro 与 Kimi K2.6 实际上可以视为同一水平,均远超 GLM 5.1。
与自身系列纵向比较,数学和综合推理方面的进步同样可观。GPQA Diamond 从 V3.2 的 82.40 提升到 90.10,V3.1 是 80.10,R1-0528 是 81.00——后三者在这个维度的表现非常接近,V4 Pro 则拉开了约 8 个百分点的距离,是这一代迭代中最显著的进步点之一。
HLE 是 V4 Pro 的明显短板,同代竞品在这里更强
HLE(Humanity's Last Exam)是目前公认最难的综合知识推理评测,专门用来考查模型知识边界。V4 Pro 深度思考模式加工具联网的最高分是 48.20,而 GLM 5.1 在同等条件下是 52.30,Kimi K2.6 是 54.00。两个竞品分别高出约 4 到 6 个百分点,在 HLE 的量级上,这个差距是有意义的。
相比于系列历史来看,V4 Pro 的 HLE 成绩从 V3.2 的 25.10、V3.1 的 15.90 大幅提升,进步幅度在所有评测项里是最夸张的,接近翻倍。但即便如此,它在这个维度仍然落后于 Kimi K2.6 和 GLM 5.1,说明在极难跨领域知识推理上,V4 Pro 还有提升空间。
Agent 能力是 V4 Pro 的加分项,尤其是信息检索
BrowseComp 评测模型在有联网工具支持下的复杂信息检索能力。V4 Pro 得分 83.40,Kimi K2.6 是 83.20,GLM 5.1 是 79.30,三者中 V4 Pro 最高,但与 Kimi K2.6 几乎没有差异。
Terminal Bench 2.0 评测模型使用终端工具完成任务的能力,V4 Pro 得分 67.90,Kimi K2.6 是 66.70,GLM 5.1 是 63.50,V4 Pro 在这里有更明显的领先。
与系列自身纵向对比,Agent 能力的进步幅度是最大的:BrowseComp 从 V3.2 的 51.40 跳升到 83.40,Terminal Bench 2.0 从 V3.2 的 46.40 提升到 67.90,增幅都超过 40%。Agent 能力的系统性强化,看起来是 V4 Pro 这一代迭代的重要目标之一。
价格维度:V4 Pro 不是最便宜的,但定价逻辑合理
三个模型的标准 API 定价如下:V4 Pro 输入 $1.74/1M tokens、输出 $3.48/1M tokens;GLM 5.1 输入 $1.40/1M tokens、输出 $4.40/1M tokens;Kimi K2.6 输入 $0.95/1M tokens、输出 $4.00/1M tokens。
从性价比角度看,Kimi K2.6 输入价格最低,但输出价格接近 V4 Pro 的两倍,对于输出 token 密集的推理任务(比如长代码生成、复杂数学解题),V4 Pro 的实际成本不一定更高。GLM 5.1 输入价格最接近 V4 Pro,但输出价格是三者里最贵的。如果按照综合性能来算,V4 Pro 的定价在三者中处于中等,但拥有最强的编程和数学能力,对于代码密集型应用来说单位性价比并不差。
总结:定位清晰的专项强者
综合来看,DeepSeek-V4-Pro 在当前同代国产推理模型中有明确的优势领域:竞技编程和代码生成是绝对强项,数学推理同样处于第一梯队,Agent 工具使用能力相比前代有实质性提升。弱点同样明确:HLE 代表的超难跨领域综合推理,V4 Pro 落后于 GLM 5.1 和 Kimi K2.6,工程缺陷修复类任务(SWE-Bench Pro)也略处下风。
对于代码生成、数学解题、技术文档处理等任务,V4 Pro 是目前国产模型里最值得优先选择的;如果业务场景对宽域知识推理要求更高,Kimi K2.6 在 HLE 上的优势值得参考。