DeepSeek-V4-ProvsGLM 5.1

在 7 个共同 benchmark 中，GLM 5.1 整体领先：DeepSeek-V4-Pro 领先 2 项，GLM 5.1 领先 5 项，持平 0 项，平均分差 -15.66。

DeepSeek-AI · 2026-04-24 · 推理大模型

智谱AI · 2026-03-27 · 推理大模型

DeepSeek-V4-Pro2 项(29%)(71%)5 项GLM 5.1

评测分数

按能力类目分组，每组内按分差大小排列；共 7 项。

GLM 5.1 领先 2/3

评测项	DeepSeek-V4-Pro	GLM 5.1	分差
HLE	7.70156 / 172Normal (No Tools)	52.3019 / 172Thinking (With Tools)	-44.60
GPQA Diamond	72.90108 / 187Normal (No Tools)	86.2047 / 187Thinking (No Tools)	-13.30
LiveBench	73.5823 / 115Normal (No Tools)	70.1837 / 115Normal (No Tools)	+3.40

DeepSeek-V4-Pro 领先 1/1

评测项	DeepSeek-V4-Pro	GLM 5.1	分差
BrowseComp	83.4013 / 53极高强度思考（工具）	79.3017 / 53Thinking (With Tools + Internet)	+4.10

GLM 5.1 领先 1/1

评测项	DeepSeek-V4-Pro	GLM 5.1	分差
Terminal Bench 2.0	59.1022 / 47Normal (With Tools)	63.5013 / 47Thinking (With Tools)	-4.40

GLM 5.1 领先 1/1

评测项	DeepSeek-V4-Pro	GLM 5.1	分差
SWE-Bench Pro - Public	52.1038 / 54Normal (With Tools)	58.4015 / 54Thinking (With Tools)	-6.30

GLM 5.1 领先 1/1

评测项	DeepSeek-V4-Pro	GLM 5.1	分差
IMO-AnswerBench	35.3021 / 21Normal (No Tools)	83.8012 / 21Thinking (No Tools)	-48.50

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

DeepSeek-V4-Pro在以下类目领先:AI Agent - Information Search (1/1)
GLM 5.1在以下类目领先:General Knowledge (2/3)、AI Agent - Tool Usage (1/1)、Coding and Software Engineer (1/1)、Math and Reasoning (1/1)

7 个共同 benchmark 上，GLM 5.1 平均高出 15.66 分。

单项差距最大的 benchmark：IMO-AnswerBench — DeepSeek-V4-Pro 35.30，GLM 5.1 83.80（分差 -48.50）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。