DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
目录
大模型列表DeepSeek-V4-Pro评测分析
DeepSeek-AI

DeepSeek-V4-Pro

DeepSeek-AI
发布机构
DeepSeek-AI
模型类型
推理大模型
参数量
16000.0
上下文长度
1M
最大输出
384000
发布时间
2026/4/24
知识截止
2025/5/1
架构
Mixture of Experts (MoE)
激活参数
490B
HuggingFace论文
更新于 2026/4/25
29 次阅读
查看模型详情 →

DeepSeek-V4-Pro 评测深度分析

DeepSeek-V4-Pro 评测分析:LiveCodeBench 排名第一(93.50分),Codeforces 达3206分,数学推理IMO-AnswerBench得分89.80。本文对比GLM 5.1、Kimi K2.6及DeepSeek历代版本,解读各维度优劣与适用场景。

DeepSeek-V4-Pro 评测分析:编程能力独树一帜,综合能力仍有短板

DeepSeek-V4-Pro 是 DeepSeek 旗下目前评测数据最完整、成绩最突出的旗舰推理模型。从 DataLearner 收录的多维度评测结果来看,这个模型的优势集中而明显——代码生成与竞技编程领域几乎无对手,同代国产推理模型难以与之抗衡。但拉开视角看,在某些综合推理维度,它并不是最强的那一个。


编程是 V4 Pro 的核心优势,且差距明显

把编程类评测单独拿出来看,数字足够说明问题。

LiveCodeBench 是目前最能反映模型真实代码能力的动态评测之一,V4 Pro 深度思考模式下得分 93.50,在 DataLearner 收录的 118 个模型中排名第一。与 Kimi K2.6(89.60)相比领先约 4 个百分点,与上一代 DeepSeek V3.2(83.30)相比提升超过 10 个百分点,与 V3.1(74.80)和 R1-0528(73.30)相比提升幅度更接近 20 个百分点。这不是小步迭代,是在编程能力上的一次系统性跃升。

Codeforces 的竞技编程评分更直观:V4 Pro 深度思考模式下达到 3206 分,而 V3.2 是 2386 分,增幅超过 800 分。竞技编程的得分曲线是非线性的,3000 分以上意味着解题能力已经接近人类顶级程序员水平,这个分数在已知模型中排名第 4,属于第一梯队。

软件工程类评测(SWE-bench 系列)的结果稍微复杂一些。SWE-bench Verified 上 V4 Pro 得分 80.60,与 Kimi K2.6 的 80.20 基本持平,略微领先。但在 SWE-bench Multilingual(多语言代码库修复)上,V4 Pro 是 76.20,Kimi K2.6 是 76.70,差距同样微小。SWE-Bench Pro(更难的公开测试集)上,V4 Pro 是 55.40,反而低于 GLM 5.1 的 58.40 和 Kimi K2.6 的 58.60。这说明 V4 Pro 在竞技编程和代码生成上的优势是真实的,但在解决复杂工程软件缺陷这类任务上,它与竞品之间的差距已经微乎其微,甚至略处下风。


数学推理方向,V4 Pro 是同代国产模型里的最强选手

IMO-AnswerBench 是针对国际数学奥林匹克题目的评测,对于模型的深度数学推理能力有很强的区分度。V4 Pro 得分 89.80,GLM 5.1 是 83.80,Kimi K2.6 是 86.00,V4 Pro 领先幅度分别约 6 和 4 个百分点。在 DataLearner 收录的 17 个参测模型里,V4 Pro 排名第 3,已经属于全球前列。

GPQA Diamond 是科学推理和研究生级知识问答,V4 Pro 得分 90.10,Kimi K2.6 是 90.50,GLM 5.1 是 86.20。三者差距很小,V4 Pro 与 Kimi K2.6 实际上可以视为同一水平,均远超 GLM 5.1。

与自身系列纵向比较,数学和综合推理方面的进步同样可观。GPQA Diamond 从 V3.2 的 82.40 提升到 90.10,V3.1 是 80.10,R1-0528 是 81.00——后三者在这个维度的表现非常接近,V4 Pro 则拉开了约 8 个百分点的距离,是这一代迭代中最显著的进步点之一。


HLE 是 V4 Pro 的明显短板,同代竞品在这里更强

HLE(Humanity's Last Exam)是目前公认最难的综合知识推理评测,专门用来考查模型知识边界。V4 Pro 深度思考模式加工具联网的最高分是 48.20,而 GLM 5.1 在同等条件下是 52.30,Kimi K2.6 是 54.00。两个竞品分别高出约 4 到 6 个百分点,在 HLE 的量级上,这个差距是有意义的。

相比于系列历史来看,V4 Pro 的 HLE 成绩从 V3.2 的 25.10、V3.1 的 15.90 大幅提升,进步幅度在所有评测项里是最夸张的,接近翻倍。但即便如此,它在这个维度仍然落后于 Kimi K2.6 和 GLM 5.1,说明在极难跨领域知识推理上,V4 Pro 还有提升空间。


Agent 能力是 V4 Pro 的加分项,尤其是信息检索

BrowseComp 评测模型在有联网工具支持下的复杂信息检索能力。V4 Pro 得分 83.40,Kimi K2.6 是 83.20,GLM 5.1 是 79.30,三者中 V4 Pro 最高,但与 Kimi K2.6 几乎没有差异。

Terminal Bench 2.0 评测模型使用终端工具完成任务的能力,V4 Pro 得分 67.90,Kimi K2.6 是 66.70,GLM 5.1 是 63.50,V4 Pro 在这里有更明显的领先。

与系列自身纵向对比,Agent 能力的进步幅度是最大的:BrowseComp 从 V3.2 的 51.40 跳升到 83.40,Terminal Bench 2.0 从 V3.2 的 46.40 提升到 67.90,增幅都超过 40%。Agent 能力的系统性强化,看起来是 V4 Pro 这一代迭代的重要目标之一。


价格维度:V4 Pro 不是最便宜的,但定价逻辑合理

三个模型的标准 API 定价如下:V4 Pro 输入 $1.74/1M tokens、输出 $3.48/1M tokens;GLM 5.1 输入 $1.40/1M tokens、输出 $4.40/1M tokens;Kimi K2.6 输入 $0.95/1M tokens、输出 $4.00/1M tokens。

从性价比角度看,Kimi K2.6 输入价格最低,但输出价格接近 V4 Pro 的两倍,对于输出 token 密集的推理任务(比如长代码生成、复杂数学解题),V4 Pro 的实际成本不一定更高。GLM 5.1 输入价格最接近 V4 Pro,但输出价格是三者里最贵的。如果按照综合性能来算,V4 Pro 的定价在三者中处于中等,但拥有最强的编程和数学能力,对于代码密集型应用来说单位性价比并不差。


总结:定位清晰的专项强者

综合来看,DeepSeek-V4-Pro 在当前同代国产推理模型中有明确的优势领域:竞技编程和代码生成是绝对强项,数学推理同样处于第一梯队,Agent 工具使用能力相比前代有实质性提升。弱点同样明确:HLE 代表的超难跨领域综合推理,V4 Pro 落后于 GLM 5.1 和 Kimi K2.6,工程缺陷修复类任务(SWE-Bench Pro)也略处下风。

对于代码生成、数学解题、技术文档处理等任务,V4 Pro 是目前国产模型里最值得优先选择的;如果业务场景对宽域知识推理要求更高,Kimi K2.6 在 HLE 上的优势值得参考。

评测结果

DeepSeek-V4-Pro

评测结果

思考模式
全部常规思考
思考模式细分 (2)
全部默认 (最高)深度思考模式
工具使用
全部使用工具不使用工具
联网能力
全部离线联网

综合评估

共 4 项评测
评测名称 / 模式
得分
排名/总数
GPQA Diamond
高
89.10
21 / 175
MMLU Pro
高
87.10
11 / 124
HLE
高
34.50
56 / 148
HLE
高工具联网
44.70
29 / 148

编程与软件工程

共 5 项评测
评测名称 / 模式
得分
排名/总数
CodeForces
高
2919
4 / 16
LiveCodeBench
高
89.80
5 / 118
SWE-bench Verified
高工具
79.40
14 / 103
SWE-bench Multilingual
高工具
74.10
4 / 17
SWE-Bench Pro - Public
高工具
54.40
15 / 36

AI Agent - 信息收集

共 1 项评测
评测名称 / 模式
得分
排名/总数
BrowseComp
高工具联网
80.40
10 / 43

AI Agent - 工具使用

共 1 项评测
评测名称 / 模式
得分
排名/总数
Terminal Bench 2.0
高工具
63.30
12 / 43

数学推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
IMO-AnswerBench
高
88
3 / 17
与其他模型对比

竞品对比

DeepSeek-V4-Pro 与同类主流模型的评测得分对比

DeepSeek-V4-ProGLM 5.1Kimi K2.6
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;具体模式明细请看下方表格。

评测得分对比

9 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。

评测项DeepSeek-V4-Pro当前GLM 5.1Kimi K2.6
GPQA Diamond
综合评估
90.10深度思考模式
86.20开启思考
90.50开启思考
HLE
综合评估
48.20深度思考模式 | 工具
52.30开启思考 | 工具
54.00开启思考 | 工具
LiveCodeBench
编程与软件工程
93.50深度思考模式
--
89.60开启思考
SWE-bench Multilingual
编程与软件工程
76.20深度思考模式 | 工具
--
76.70开启思考 | 工具
SWE-Bench Pro - Public
编程与软件工程
55.40深度思考模式 | 工具
58.40开启思考 | 工具
58.60开启思考 | 工具
SWE-bench Verified
编程与软件工程
80.60深度思考模式 | 工具
--
80.20开启思考 | 工具
BrowseComp
AI Agent - 信息收集
83.40深度思考模式 | 工具
79.30开启思考 | 工具
83.20开启思考 | 工具
Terminal Bench 2.0
AI Agent - 工具使用
67.90深度思考模式 | 工具
63.50开启思考 | 工具
66.70开启思考 | 工具
IMO-AnswerBench
数学推理
89.80深度思考模式
83.80开启思考
86.00开启思考

DeepSeek-V4-Pro 与同类模型的标准 API 价格对比

按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。

数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens

模型供应商标准输入标准输出标准价适用于
DeepSeek-V4-Pro
DeepSeek-AI$1.74 / 1M tokens$3.48 / 1M tokens—
GLM 5.1
智谱AI$1.4 / 1M tokens$4.4 / 1M tokens—
Kimi K2.6
Facebook AI研究实验室$0.95 / 1M tokens$4 / 1M tokens—

历代版本对比

DeepSeek-V4-Pro 系列各版本的评测成绩纵向对比

DeepSeek-V4-ProDeepSeek V3.2DeepSeek-V3.1DeepSeek-R1-0528
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;具体模式明细请看下方表格。

评测得分对比

9 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。· 点击任意行可切换下方趋势图。

评测项DeepSeek-V4-Pro当前DeepSeek V3.2DeepSeek-V3.1DeepSeek-R1-0528
GPQA Diamond
综合评估
90.10深度思考模式
82.40开启思考
80.10开启思考
81.00开启思考
HLE
综合评估
48.20深度思考模式 | 工具
25.10开启思考
15.90开启思考
17.70开启思考
MMLU Pro
综合评估
87.50深度思考模式
--
85.00开启思考
85.00开启思考
CodeForces
编程与软件工程
3206.00深度思考模式
2386.00开启思考
--
--
LiveCodeBench
编程与软件工程
93.50深度思考模式
83.30开启思考
74.80开启思考
73.30开启思考
SWE-Bench Pro - Public
编程与软件工程
55.40深度思考模式 | 工具
40.90开启思考
--
--
SWE-bench Verified
编程与软件工程
80.60深度思考模式 | 工具
73.10开启思考 | 工具
66.00常规模式
57.60开启思考
BrowseComp
AI Agent - 信息收集
83.40深度思考模式 | 工具
51.40开启思考
--
--
Terminal Bench 2.0
AI Agent - 工具使用
67.90深度思考模式 | 工具
46.40开启思考 | 工具
--
--

单评测历史趋势图

当前查看:GPQA Diamond · 综合评估

选择评测
常规常规 + 工具推理推理 + 工具深度推理深度推理 + 工具

横轴为模型与发布时间,纵轴为分数;同一模式会用实线串起版本变化,同代不同模式继续用虚线辅助对齐。

DeepSeek-V4-Pro 所在系列的标准 API 价格对比

按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。

数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens

模型供应商标准输入标准输出标准价适用于
DeepSeek-V4-Pro
DeepSeek-AI$1.74 / 1M tokens$3.48 / 1M tokens—
DeepSeek-V3.1
—0.56 美元/100 万tokens1.68 美元/100 万tokens—
DeepSeek-R1-0528
—0.55 美元/ 100 万tokens2.19 美元/ 100 万tokens—

数据来源

huggingface.co