GLM-5vsGLM-4.7

在 11 个共同 benchmark 中，GLM-5 整体领先：GLM-5 领先 9 项，GLM-4.7 领先 1 项，持平 1 项，平均分差 +7.63。

智谱AI · 2026-02-11 · 聊天大模型

智谱AI · 2025-12-22 · 聊天大模型

GLM-59 项(82%)持平1(9%)1 项GLM-4.7

评测分数

按能力类目分组，每组内按分差大小排列；共 11 项。

GLM-5 领先 3/3

评测项	GLM-5	GLM-4.7	分差
LiveBench	68.8543 / 115Normal (No Tools)	58.0978 / 115Normal (No Tools)	+10.76
HLE	50.4025 / 172	42.8052 / 172	+7.60
GPQA Diamond	8648 / 187Thinking (No Tools)	85.7049 / 187	+0.30

GLM-5 领先 2/2

评测项	GLM-5	GLM-4.7	分差
Terminal Bench Hard	432 / 13	33.307 / 13	+9.70
τ²-Bench	89.704 / 43	87.406 / 43	+2.30

GLM-4.7 领先 1/2

评测项	GLM-5	GLM-4.7	分差
AIME 2026	92.709 / 18Thinking (No Tools)	92.908 / 18	-0.20
FrontierMath - Tier 4	2.1056 / 80Normal (No Tools)	2.1056 / 80Normal (No Tools)	持平

GLM-5 领先 1/1

评测项	GLM-5	GLM-4.7	分差
BrowseComp	75.9024 / 53	5241 / 53	+23.90

GLM-5 领先 1/1

评测项	GLM-5	GLM-4.7	分差
Terminal Bench 2.0	61.1018 / 47	4144 / 47	+20.10

GLM-5 领先 1/1

评测项	GLM-5	GLM-4.7	分差
SWE-bench Verified	77.8025 / 112Thinking (No Tools)	73.8043 / 112	+4

GLM-5 领先 1/1

评测项	GLM-5	GLM-4.7	分差
Simple Bench	53.2023 / 63Normal (No Tools)	47.7029 / 63Thinking (No Tools)	+5.50

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

GLM-5在以下类目领先:General Knowledge (3/3)、Agent Level Benchmark (2/2)、AI Agent - Information Search (1/1)、AI Agent - Tool Usage (1/1)、Coding and Software Engineer (1/1)、常识推理 (1/1)
GLM-4.7在以下类目领先:Math and Reasoning (1/2)

11 个共同 benchmark 上，GLM-5 平均高出 7.63 分。

单项差距最大的 benchmark：BrowseComp — GLM-5 75.90，GLM-4.7 52（分差 +23.90）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。