DeepSeek-V4-ProvsDeepSeek-V3.1

在 5 个共同 benchmark 中，DeepSeek-V3.1 整体领先：DeepSeek-V4-Pro 领先 1 项，DeepSeek-V3.1 领先 4 项，持平 0 项，平均分差 -5.58。

DeepSeek-AI · 2026-04-24 · 推理大模型

DeepSeek-AI · 2025-08-20 · 聊天大模型

DeepSeek-V4-Pro1 项(20%)(80%)4 项DeepSeek-V3.1

评测分数

按能力类目分组，每组内按分差大小排列；共 5 项。

DeepSeek-V3.1 领先 3/3

评测项	DeepSeek-V4-Pro	DeepSeek-V3.1	分差
HLE	7.70141 / 157Normal (No Tools)	15.90118 / 157	-8.20
GPQA Diamond	72.90102 / 178Normal (No Tools)	80.1075 / 178	-7.20
MMLU Pro	82.9046 / 126Normal (No Tools)	8525 / 126	-2.10

胶着 2/2

评测项	DeepSeek-V4-Pro	DeepSeek-V3.1	分差
LiveCodeBench	56.8075 / 120Normal (No Tools)	74.8040 / 120	-18
SWE-bench Verified	73.6041 / 108Normal (With Tools)	6670 / 108	+7.60

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

部分模型公开价格不完整，缺失字段按"暂无公开价格"展示。

5 个共同 benchmark 上，DeepSeek-V3.1 平均高出 5.58 分。

单项差距最大的 benchmark：LiveCodeBench — DeepSeek-V4-Pro 56.80，DeepSeek-V3.1 74.80（分差 -18）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。