DataLearner logoDataLearnerAI
Latest AI Insights
Model Leaderboards
Benchmarks
Model Directory
Model Comparison
Resource Center
Tools
LanguageEnglish
DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

Products

  • Leaderboards
  • Model comparison
  • Datasets

Resources

  • Tutorials
  • Editorial
  • Tool directory

Company

  • About
  • Privacy policy
  • Data methodology
  • Contact

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

Privacy policyTerms of service
Page navigation
目录
Model catalogDeepSeek-V4-ProBenchmark analysis
DeepSeek-AI

DeepSeek-V4-Pro

DeepSeek-AI
Organization
DeepSeek-AI
Model Type
推理大模型
Parameters
16000.0
Context Length
1M
Max Output
384000
Released
4/24/2026
Knowledge Cutoff
5/1/2025
Architecture
Mixture of Experts (MoE)
Active Params
490B
HuggingFacePaper
Updated 4/25/2026
39 views
View Model Details →

DeepSeek-V4-Pro Benchmark Analysis

DeepSeek-V4-Pro 评测分析:LiveCodeBench 排名第一(93.50分),Codeforces 达3206分,数学推理IMO-AnswerBench得分89.80。本文对比GLM 5.1、Kimi K2.6及DeepSeek历代版本,解读各维度优劣与适用场景。

DeepSeek-V4-Pro 评测分析:编程能力独树一帜,综合能力仍有短板

DeepSeek-V4-Pro 是 DeepSeek 旗下目前评测数据最完整、成绩最突出的旗舰推理模型。从 DataLearner 收录的多维度评测结果来看,这个模型的优势集中而明显——代码生成与竞技编程领域几乎无对手,同代国产推理模型难以与之抗衡。但拉开视角看,在某些综合推理维度,它并不是最强的那一个。


编程是 V4 Pro 的核心优势,且差距明显

把编程类评测单独拿出来看,数字足够说明问题。

LiveCodeBench 是目前最能反映模型真实代码能力的动态评测之一,V4 Pro 深度思考模式下得分 93.50,在 DataLearner 收录的 118 个模型中排名第一。与 Kimi K2.6(89.60)相比领先约 4 个百分点,与上一代 DeepSeek V3.2(83.30)相比提升超过 10 个百分点,与 V3.1(74.80)和 R1-0528(73.30)相比提升幅度更接近 20 个百分点。这不是小步迭代,是在编程能力上的一次系统性跃升。

Codeforces 的竞技编程评分更直观:V4 Pro 深度思考模式下达到 3206 分,而 V3.2 是 2386 分,增幅超过 800 分。竞技编程的得分曲线是非线性的,3000 分以上意味着解题能力已经接近人类顶级程序员水平,这个分数在已知模型中排名第 4,属于第一梯队。

软件工程类评测(SWE-bench 系列)的结果稍微复杂一些。SWE-bench Verified 上 V4 Pro 得分 80.60,与 Kimi K2.6 的 80.20 基本持平,略微领先。但在 SWE-bench Multilingual(多语言代码库修复)上,V4 Pro 是 76.20,Kimi K2.6 是 76.70,差距同样微小。SWE-Bench Pro(更难的公开测试集)上,V4 Pro 是 55.40,反而低于 GLM 5.1 的 58.40 和 Kimi K2.6 的 58.60。这说明 V4 Pro 在竞技编程和代码生成上的优势是真实的,但在解决复杂工程软件缺陷这类任务上,它与竞品之间的差距已经微乎其微,甚至略处下风。


数学推理方向,V4 Pro 是同代国产模型里的最强选手

IMO-AnswerBench 是针对国际数学奥林匹克题目的评测,对于模型的深度数学推理能力有很强的区分度。V4 Pro 得分 89.80,GLM 5.1 是 83.80,Kimi K2.6 是 86.00,V4 Pro 领先幅度分别约 6 和 4 个百分点。在 DataLearner 收录的 17 个参测模型里,V4 Pro 排名第 3,已经属于全球前列。

GPQA Diamond 是科学推理和研究生级知识问答,V4 Pro 得分 90.10,Kimi K2.6 是 90.50,GLM 5.1 是 86.20。三者差距很小,V4 Pro 与 Kimi K2.6 实际上可以视为同一水平,均远超 GLM 5.1。

与自身系列纵向比较,数学和综合推理方面的进步同样可观。GPQA Diamond 从 V3.2 的 82.40 提升到 90.10,V3.1 是 80.10,R1-0528 是 81.00——后三者在这个维度的表现非常接近,V4 Pro 则拉开了约 8 个百分点的距离,是这一代迭代中最显著的进步点之一。


HLE 是 V4 Pro 的明显短板,同代竞品在这里更强

HLE(Humanity's Last Exam)是目前公认最难的综合知识推理评测,专门用来考查模型知识边界。V4 Pro 深度思考模式加工具联网的最高分是 48.20,而 GLM 5.1 在同等条件下是 52.30,Kimi K2.6 是 54.00。两个竞品分别高出约 4 到 6 个百分点,在 HLE 的量级上,这个差距是有意义的。

相比于系列历史来看,V4 Pro 的 HLE 成绩从 V3.2 的 25.10、V3.1 的 15.90 大幅提升,进步幅度在所有评测项里是最夸张的,接近翻倍。但即便如此,它在这个维度仍然落后于 Kimi K2.6 和 GLM 5.1,说明在极难跨领域知识推理上,V4 Pro 还有提升空间。


Agent 能力是 V4 Pro 的加分项,尤其是信息检索

BrowseComp 评测模型在有联网工具支持下的复杂信息检索能力。V4 Pro 得分 83.40,Kimi K2.6 是 83.20,GLM 5.1 是 79.30,三者中 V4 Pro 最高,但与 Kimi K2.6 几乎没有差异。

Terminal Bench 2.0 评测模型使用终端工具完成任务的能力,V4 Pro 得分 67.90,Kimi K2.6 是 66.70,GLM 5.1 是 63.50,V4 Pro 在这里有更明显的领先。

与系列自身纵向对比,Agent 能力的进步幅度是最大的:BrowseComp 从 V3.2 的 51.40 跳升到 83.40,Terminal Bench 2.0 从 V3.2 的 46.40 提升到 67.90,增幅都超过 40%。Agent 能力的系统性强化,看起来是 V4 Pro 这一代迭代的重要目标之一。


价格维度:V4 Pro 不是最便宜的,但定价逻辑合理

三个模型的标准 API 定价如下:V4 Pro 输入 $1.74/1M tokens、输出 $3.48/1M tokens;GLM 5.1 输入 $1.40/1M tokens、输出 $4.40/1M tokens;Kimi K2.6 输入 $0.95/1M tokens、输出 $4.00/1M tokens。

从性价比角度看,Kimi K2.6 输入价格最低,但输出价格接近 V4 Pro 的两倍,对于输出 token 密集的推理任务(比如长代码生成、复杂数学解题),V4 Pro 的实际成本不一定更高。GLM 5.1 输入价格最接近 V4 Pro,但输出价格是三者里最贵的。如果按照综合性能来算,V4 Pro 的定价在三者中处于中等,但拥有最强的编程和数学能力,对于代码密集型应用来说单位性价比并不差。


总结:定位清晰的专项强者

综合来看,DeepSeek-V4-Pro 在当前同代国产推理模型中有明确的优势领域:竞技编程和代码生成是绝对强项,数学推理同样处于第一梯队,Agent 工具使用能力相比前代有实质性提升。弱点同样明确:HLE 代表的超难跨领域综合推理,V4 Pro 落后于 GLM 5.1 和 Kimi K2.6,工程缺陷修复类任务(SWE-Bench Pro)也略处下风。

对于代码生成、数学解题、技术文档处理等任务,V4 Pro 是目前国产模型里最值得优先选择的;如果业务场景对宽域知识推理要求更高,Kimi K2.6 在 HLE 上的优势值得参考。

Benchmark Results

DeepSeek-V4-Pro

Benchmark Results

Thinking
All modesNormalThinking
Thinking mode details (2)
All thinking modesDefault (Max)Deep Thinking Mode
Tool usage
All modesWith toolsNo tools
Internet
All modesOfflineInternet enabled

综合评估

4 evaluations
Benchmark / mode
Score
Rank/total
GPQA Diamond
High
89.10
21 / 175
MMLU Pro
High
87.10
11 / 124
HLE
High
34.50
56 / 148
HLE
HighToolsInternet
44.70
29 / 148

编程与软件工程

5 evaluations
Benchmark / mode
Score
Rank/total
CodeForces
High
2919
4 / 16
LiveCodeBench
High
89.80
5 / 118
SWE-bench Verified
HighTools
79.40
14 / 103
SWE-bench Multilingual
HighTools
74.10
4 / 17
SWE-Bench Pro - Public
HighTools
54.40
15 / 36

AI Agent - 信息收集

1 evaluations
Benchmark / mode
Score
Rank/total
BrowseComp
HighToolsInternet
80.40
10 / 43

AI Agent - 工具使用

1 evaluations
Benchmark / mode
Score
Rank/total
Terminal Bench 2.0
HighTools
63.30
12 / 43

数学推理

1 evaluations
Benchmark / mode
Score
Rank/total
IMO-AnswerBench
High
88
3 / 17
Compare with other models

Competitor Comparison

Benchmark scores for DeepSeek-V4-Pro compared against top models in its class

DeepSeek-V4-ProGLM 5.1Kimi K2.6
Benchmark categories:
The chart shows each model’s highest score per benchmark within the current filter. See the table below for per-mode details.

Benchmark Score Comparison

9 benchmarks with comparable scores. Each model shows its best score; mode label is displayed below.

BenchmarkDeepSeek-V4-ProCurrentGLM 5.1Kimi K2.6
GPQA Diamond
综合评估
90.10Deep Thinking Mode
86.20Thinking Enabled
90.50Thinking Enabled
HLE
综合评估
48.20Deep Thinking Mode | Tools
52.30Thinking Enabled | Tools
54.00Thinking Enabled | Tools
LiveCodeBench
编程与软件工程
93.50Deep Thinking Mode
--
89.60Thinking Enabled
SWE-bench Multilingual
编程与软件工程
76.20Deep Thinking Mode | Tools
--
76.70Thinking Enabled | Tools
SWE-Bench Pro - Public
编程与软件工程
55.40Deep Thinking Mode | Tools
58.40Thinking Enabled | Tools
58.60Thinking Enabled | Tools
SWE-bench Verified
编程与软件工程
80.60Deep Thinking Mode | Tools
--
80.20Thinking Enabled | Tools
BrowseComp
AI Agent - 信息收集
83.40Deep Thinking Mode | Tools
79.30Thinking Enabled | Tools
83.20Thinking Enabled | Tools
Terminal Bench 2.0
AI Agent - 工具使用
67.90Deep Thinking Mode | Tools
63.50Thinking Enabled | Tools
66.70Thinking Enabled | Tools
IMO-AnswerBench
数学推理
89.80Deep Thinking Mode
83.80Thinking Enabled
86.00Thinking Enabled

Standard API Pricing: DeepSeek-V4-Pro vs. Peer Models

Shows standard text input and output pricing side by side for each model. If extended-context pricing exists, the chart keeps the base rate and explains the threshold below.

Source: DataLearnerAI. Standard text prices shown here use the default supplier. · USD / 1M tokens

ModelSupplierStandard inputStandard outputBase price applies to
DeepSeek-V4-Pro
DeepSeek-AI$1.74 / 1M tokens$3.48 / 1M tokens—
GLM 5.1
智谱AI$1.4 / 1M tokens$4.4 / 1M tokens—
Kimi K2.6
Facebook AI研究实验室$0.95 / 1M tokens$4 / 1M tokens—

Version History

How each version of the DeepSeek-V4-Pro series stacks up on benchmark tests

DeepSeek-V4-ProDeepSeek V3.2DeepSeek-V3.1DeepSeek-R1-0528
Benchmark categories:
The chart shows each model’s highest score per benchmark within the current filter. See the table below for per-mode details.

Benchmark Score Comparison

9 benchmarks with comparable scores. Each model shows its best score; mode label is displayed below.· Click a row to view its trend chart.

BenchmarkDeepSeek-V4-ProCurrentDeepSeek V3.2DeepSeek-V3.1DeepSeek-R1-0528
GPQA Diamond
综合评估
90.10Deep Thinking Mode
82.40Thinking Enabled
80.10Thinking Enabled
81.00Thinking Enabled
HLE
综合评估
48.20Deep Thinking Mode | Tools
25.10Thinking Enabled
15.90Thinking Enabled
17.70Thinking Enabled
MMLU Pro
综合评估
87.50Deep Thinking Mode
--
85.00Thinking Enabled
85.00Thinking Enabled
CodeForces
编程与软件工程
3206.00Deep Thinking Mode
2386.00Thinking Enabled
--
--
LiveCodeBench
编程与软件工程
93.50Deep Thinking Mode
83.30Thinking Enabled
74.80Thinking Enabled
73.30Thinking Enabled
SWE-Bench Pro - Public
编程与软件工程
55.40Deep Thinking Mode | Tools
40.90Thinking Enabled
--
--
SWE-bench Verified
编程与软件工程
80.60Deep Thinking Mode | Tools
73.10Thinking Enabled | Tools
66.00Standard Mode
57.60Thinking Enabled
BrowseComp
AI Agent - 信息收集
83.40Deep Thinking Mode | Tools
51.40Thinking Enabled
--
--
Terminal Bench 2.0
AI Agent - 工具使用
67.90Deep Thinking Mode | Tools
46.40Thinking Enabled | Tools
--
--

Single-Benchmark Version Trend

Viewing: GPQA Diamond · 综合评估

Benchmark
NormalNormal + ToolsThinkingThinking + ToolsDeepDeep + Tools

X-axis shows model and release date, Y-axis shows score; solid lines connect the same mode across versions, while dotted guides align modes within the same generation.

Standard API Pricing Across the DeepSeek-V4-Pro Series

Shows standard text input and output pricing side by side for each model. If extended-context pricing exists, the chart keeps the base rate and explains the threshold below.

Source: DataLearnerAI. Standard text prices shown here use the default supplier. · USD / 1M tokens

ModelSupplierStandard inputStandard outputBase price applies to
DeepSeek-V4-Pro
DeepSeek-AI$1.74 / 1M tokens$3.48 / 1M tokens—
DeepSeek-V3.1
—0.56 美元/100 万tokens1.68 美元/100 万tokens—
DeepSeek-R1-0528
—0.55 美元/ 100 万tokens2.19 美元/ 100 万tokens—

Sources

huggingface.co