DeepSeek-V4-Pro 评测分析：编程能力独树一帜，综合能力仍有短板

DeepSeek-V4-Pro 是 DeepSeek 旗下目前评测数据最完整、成绩最突出的旗舰推理模型。从 DataLearner 收录的多维度评测结果来看，这个模型的优势集中而明显——代码生成与竞技编程领域几乎无对手，同代国产推理模型难以与之抗衡。但拉开视角看，在某些综合推理维度，它并不是最强的那一个。

编程是 V4 Pro 的核心优势，且差距明显

把编程类评测单独拿出来看，数字足够说明问题。

LiveCodeBench 是目前最能反映模型真实代码能力的动态评测之一，V4 Pro 深度思考模式下得分 93.50，在 DataLearner 收录的 118 个模型中排名第一。与 Kimi K2.6（89.60）相比领先约 4 个百分点，与上一代 DeepSeek V3.2（83.30）相比提升超过 10 个百分点，与 V3.1（74.80）和 R1-0528（73.30）相比提升幅度更接近 20 个百分点。这不是小步迭代，是在编程能力上的一次系统性跃升。

Codeforces 的竞技编程评分更直观：V4 Pro 深度思考模式下达到 3206 分，而 V3.2 是 2386 分，增幅超过 800 分。竞技编程的得分曲线是非线性的，3000 分以上意味着解题能力已经接近人类顶级程序员水平，这个分数在已知模型中排名第 4，属于第一梯队。

软件工程类评测（SWE-bench 系列）的结果稍微复杂一些。SWE-bench Verified 上 V4 Pro 得分 80.60，与 Kimi K2.6 的 80.20 基本持平，略微领先。但在 SWE-bench Multilingual（多语言代码库修复）上，V4 Pro 是 76.20，Kimi K2.6 是 76.70，差距同样微小。SWE-Bench Pro（更难的公开测试集）上，V4 Pro 是 55.40，反而低于 GLM 5.1 的 58.40 和 Kimi K2.6 的 58.60。这说明 V4 Pro 在竞技编程和代码生成上的优势是真实的，但在解决复杂工程软件缺陷这类任务上，它与竞品之间的差距已经微乎其微，甚至略处下风。

数学推理方向，V4 Pro 是同代国产模型里的最强选手

IMO-AnswerBench 是针对国际数学奥林匹克题目的评测，对于模型的深度数学推理能力有很强的区分度。V4 Pro 得分 89.80，GLM 5.1 是 83.80，Kimi K2.6 是 86.00，V4 Pro 领先幅度分别约 6 和 4 个百分点。在 DataLearner 收录的 17 个参测模型里，V4 Pro 排名第 3，已经属于全球前列。

GPQA Diamond 是科学推理和研究生级知识问答，V4 Pro 得分 90.10，Kimi K2.6 是 90.50，GLM 5.1 是 86.20。三者差距很小，V4 Pro 与 Kimi K2.6 实际上可以视为同一水平，均远超 GLM 5.1。

与自身系列纵向比较，数学和综合推理方面的进步同样可观。GPQA Diamond 从 V3.2 的 82.40 提升到 90.10，V3.1 是 80.10，R1-0528 是 81.00——后三者在这个维度的表现非常接近，V4 Pro 则拉开了约 8 个百分点的距离，是这一代迭代中最显著的进步点之一。

HLE 是 V4 Pro 的明显短板，同代竞品在这里更强

HLE（Humanity's Last Exam）是目前公认最难的综合知识推理评测，专门用来考查模型知识边界。V4 Pro 深度思考模式加工具联网的最高分是 48.20，而 GLM 5.1 在同等条件下是 52.30，Kimi K2.6 是 54.00。两个竞品分别高出约 4 到 6 个百分点，在 HLE 的量级上，这个差距是有意义的。

相比于系列历史来看，V4 Pro 的 HLE 成绩从 V3.2 的 25.10、V3.1 的 15.90 大幅提升，进步幅度在所有评测项里是最夸张的，接近翻倍。但即便如此，它在这个维度仍然落后于 Kimi K2.6 和 GLM 5.1，说明在极难跨领域知识推理上，V4 Pro 还有提升空间。

Agent 能力是 V4 Pro 的加分项，尤其是信息检索

BrowseComp 评测模型在有联网工具支持下的复杂信息检索能力。V4 Pro 得分 83.40，Kimi K2.6 是 83.20，GLM 5.1 是 79.30，三者中 V4 Pro 最高，但与 Kimi K2.6 几乎没有差异。

Terminal Bench 2.0 评测模型使用终端工具完成任务的能力，V4 Pro 得分 67.90，Kimi K2.6 是 66.70，GLM 5.1 是 63.50，V4 Pro 在这里有更明显的领先。

与系列自身纵向对比，Agent 能力的进步幅度是最大的：BrowseComp 从 V3.2 的 51.40 跳升到 83.40，Terminal Bench 2.0 从 V3.2 的 46.40 提升到 67.90，增幅都超过 40%。Agent 能力的系统性强化，看起来是 V4 Pro 这一代迭代的重要目标之一。

价格维度：V4 Pro 不是最便宜的，但定价逻辑合理

三个模型的标准 API 定价如下：V4 Pro 输入 $1.74/1M tokens、输出 $3.48/1M tokens；GLM 5.1 输入 $1.40/1M tokens、输出 $4.40/1M tokens；Kimi K2.6 输入 $0.95/1M tokens、输出 $4.00/1M tokens。

从性价比角度看，Kimi K2.6 输入价格最低，但输出价格接近 V4 Pro 的两倍，对于输出 token 密集的推理任务（比如长代码生成、复杂数学解题），V4 Pro 的实际成本不一定更高。GLM 5.1 输入价格最接近 V4 Pro，但输出价格是三者里最贵的。如果按照综合性能来算，V4 Pro 的定价在三者中处于中等，但拥有最强的编程和数学能力，对于代码密集型应用来说单位性价比并不差。

总结：定位清晰的专项强者

综合来看，DeepSeek-V4-Pro 在当前同代国产推理模型中有明确的优势领域：竞技编程和代码生成是绝对强项，数学推理同样处于第一梯队，Agent 工具使用能力相比前代有实质性提升。弱点同样明确：HLE 代表的超难跨领域综合推理，V4 Pro 落后于 GLM 5.1 和 Kimi K2.6，工程缺陷修复类任务（SWE-Bench Pro）也略处下风。

对于代码生成、数学解题、技术文档处理等任务，V4 Pro 是目前国产模型里最值得优先选择的；如果业务场景对宽域知识推理要求更高，Kimi K2.6 在 HLE 上的优势值得参考。

DeepSeek-V4-Pro 评测分析：编程能力独树一帜，综合能力仍有短板

编程是 V4 Pro 的核心优势，且差距明显

把编程类评测单独拿出来看，数字足够说明问题。

数学推理方向，V4 Pro 是同代国产模型里的最强选手

HLE 是 V4 Pro 的明显短板，同代竞品在这里更强

Agent 能力是 V4 Pro 的加分项，尤其是信息检索

Terminal Bench 2.0 评测模型使用终端工具完成任务的能力，V4 Pro 得分 67.90，Kimi K2.6 是 66.70，GLM 5.1 是 63.50，V4 Pro 在这里有更明显的领先。

评测项	DeepSeek-V4-Pro当前	GLM 5.1	Kimi K2.6
GPQA Diamond 综合评估	90.10深度思考模式	86.20开启思考	90.50开启思考
HLE 综合评估	48.20深度思考模式｜工具	52.30开启思考｜工具	54.00开启思考｜工具
LiveCodeBench 编程与软件工程	93.50深度思考模式	--	89.60开启思考
SWE-bench Multilingual 编程与软件工程	76.20深度思考模式｜工具	--	76.70开启思考｜工具
SWE-Bench Pro - Public 编程与软件工程	55.40深度思考模式｜工具	58.40开启思考｜工具	58.60开启思考｜工具
SWE-bench Verified 编程与软件工程	80.60深度思考模式｜工具	--	80.20开启思考｜工具
BrowseComp AI Agent - 信息收集	83.40深度思考模式｜工具	79.30开启思考｜工具	83.20开启思考｜工具
Terminal Bench 2.0 AI Agent - 工具使用	67.90深度思考模式｜工具	63.50开启思考｜工具	66.70开启思考｜工具
IMO-AnswerBench 数学推理	89.80深度思考模式	83.80开启思考	86.00开启思考

模型	供应商	标准输入	标准输出	标准价适用于
DeepSeek-V4-Pro	DeepSeek-AI	$1.74 / 1M tokens	$3.48 / 1M tokens	—
GLM 5.1	智谱AI	$1.4 / 1M tokens	$4.4 / 1M tokens	—
Kimi K2.6	Facebook AI研究实验室	$0.95 / 1M tokens	$4 / 1M tokens	—

评测项	DeepSeek-V4-Pro当前	DeepSeek V3.2	DeepSeek-V3.1	DeepSeek-R1-0528
GPQA Diamond 综合评估	90.10深度思考模式	82.40开启思考	80.10开启思考	81.00开启思考
HLE 综合评估	48.20深度思考模式｜工具	25.10开启思考	15.90开启思考	17.70开启思考
MMLU Pro 综合评估	87.50深度思考模式	--	85.00开启思考	85.00开启思考
CodeForces 编程与软件工程	3206.00深度思考模式	2386.00开启思考	--	--
LiveCodeBench 编程与软件工程	93.50深度思考模式	83.30开启思考	74.80开启思考	73.30开启思考
SWE-Bench Pro - Public 编程与软件工程	55.40深度思考模式｜工具	40.90开启思考	--	--
SWE-bench Verified 编程与软件工程	80.60深度思考模式｜工具	73.10开启思考｜工具	66.00常规模式	57.60开启思考
BrowseComp AI Agent - 信息收集	83.40深度思考模式｜工具	51.40开启思考	--	--
Terminal Bench 2.0 AI Agent - 工具使用	67.90深度思考模式｜工具	46.40开启思考｜工具	--	--

模型	供应商	标准输入	标准输出	标准价适用于
DeepSeek-V4-Pro	DeepSeek-AI	$1.74 / 1M tokens	$3.48 / 1M tokens	—
DeepSeek-V3.1	—	0.56 美元/100 万tokens	1.68 美元/100 万tokens	—
DeepSeek-R1-0528	—	0.55 美元/ 100 万tokens	2.19 美元/ 100 万tokens	—

评测项	DeepSeek-V4-Pro当前	GLM 5.1	Kimi K2.6
GPQA Diamond 综合评估	90.10深度思考模式	86.20开启思考	90.50开启思考
HLE 综合评估	48.20深度思考模式｜工具	52.30开启思考｜工具	54.00开启思考｜工具
LiveCodeBench 编程与软件工程	93.50深度思考模式	--	89.60开启思考
SWE-bench Multilingual 编程与软件工程	76.20深度思考模式｜工具	--	76.70开启思考｜工具
SWE-Bench Pro - Public 编程与软件工程	55.40深度思考模式｜工具	58.40开启思考｜工具	58.60开启思考｜工具
SWE-bench Verified 编程与软件工程	80.60深度思考模式｜工具	--	80.20开启思考｜工具
BrowseComp AI Agent - 信息收集	83.40深度思考模式｜工具	79.30开启思考｜工具	83.20开启思考｜工具
Terminal Bench 2.0 AI Agent - 工具使用	67.90深度思考模式｜工具	63.50开启思考｜工具	66.70开启思考｜工具
IMO-AnswerBench 数学推理	89.80深度思考模式	83.80开启思考	86.00开启思考

DeepSeek-V4-Pro 评测深度分析

DeepSeek-V4-Pro 评测分析：编程能力独树一帜，综合能力仍有短板

编程是 V4 Pro 的核心优势，且差距明显

数学推理方向，V4 Pro 是同代国产模型里的最强选手

HLE 是 V4 Pro 的明显短板，同代竞品在这里更强

Agent 能力是 V4 Pro 的加分项，尤其是信息检索

价格维度：V4 Pro 不是最便宜的，但定价逻辑合理

总结：定位清晰的专项强者

评测结果

评测结果

综合评估

编程与软件工程

AI Agent - 信息收集

AI Agent - 工具使用

数学推理

竞品对比

评测得分对比

DeepSeek-V4-Pro 与同类模型的标准 API 价格对比

历代版本对比

评测得分对比

单评测历史趋势图

DeepSeek-V4-Pro 所在系列的标准 API 价格对比

数据来源

DeepSeek-V4-Pro 评测深度分析

DeepSeek-V4-Pro 评测分析：编程能力独树一帜，综合能力仍有短板

编程是 V4 Pro 的核心优势，且差距明显

数学推理方向，V4 Pro 是同代国产模型里的最强选手

HLE 是 V4 Pro 的明显短板，同代竞品在这里更强

Agent 能力是 V4 Pro 的加分项，尤其是信息检索

价格维度：V4 Pro 不是最便宜的，但定价逻辑合理

总结：定位清晰的专项强者

评测结果

评测结果

综合评估

编程与软件工程

AI Agent - 信息收集

AI Agent - 工具使用

数学推理

竞品对比

评测得分对比

DeepSeek-V4-Pro 与同类模型的标准 API 价格对比

历代版本对比

评测得分对比

单评测历史趋势图

DeepSeek-V4-Pro 所在系列的标准 API 价格对比

数据来源