评测结果

GLM-5

评测结果

综合评估

共 5 项评测

评测名称 / 模式

得分

排名/总数

GPQA Diamond

开启思考

40 / 175

HLE

开启思考

30.50

66 / 149

HLE

开启思考工具

50.40

15 / 149

ARC-AGI

开启思考

44.70

44 / 65

ARC-AGI-2

开启思考

4.90

43 / 58

编程与软件工程

共 1 项评测

评测名称 / 模式

得分

排名/总数

SWE-bench Verified

开启思考

77.80

18 / 103

Agent能力评测

共 3 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecom

开启思考工具

5 / 35

τ²-Bench

开启思考工具

89.70

4 / 40

Terminal Bench Hard

开启思考工具

2 / 13

数学推理

共 3 项评测

评测名称 / 模式

得分

排名/总数

AIME 2026

开启思考

92.70

7 / 14

IMO-AnswerBench

开启思考

82.50

11 / 17

FrontierMath - Tier 4

常规模式

2.10

56 / 80

指令跟随

共 1 项评测

评测名称 / 模式

得分

排名/总数

IF Bench

开启思考工具

8 / 27

AI Agent - 信息收集

共 2 项评测

评测名称 / 模式

得分

排名/总数

BrowseComp

开启思考

24 / 43

BrowseComp

开启思考工具

75.90

17 / 43

AI Agent - 工具使用

共 1 项评测

评测名称 / 模式

得分

排名/总数

Terminal Bench 2.0

开启思考工具

61.10

15 / 43

生产力知识

共 1 项评测

评测名称 / 模式

得分

排名/总数

GDPval-AA

开启思考

13 / 20

长上下文能力

共 1 项评测

评测名称 / 模式

得分

排名/总数

AA-LCR

开启思考

12 / 13

OpenClaw智能体能力综合测评

共 2 项评测

评测名称 / 模式

得分

排名/总数

Claw Bench

开启思考工具

91.70

5 / 29

Pinch Bench

开启思考工具

86.40

12 / 37

与其他模型对比

竞品对比

GLM-5 与同类主流模型的评测得分对比

评测类别:

柱状图按当前筛选范围内每个模型在各评测中的最高分展示；具体模式明细请看下方表格。

12 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。

评测项	GLM-5当前	Kimi K2.5	MiniMax M2.5
ARC-AGI 综合评估	44.70开启思考	65.30开启思考	63.70开启思考
ARC-AGI-2 综合评估	4.90开启思考	11.80开启思考	4.90开启思考
GPQA Diamond 综合评估	86.00开启思考	87.60开启思考	85.20开启思考
HLE 综合评估	50.40开启思考｜工具	50.20开启思考｜工具	19.40开启思考
SWE-bench Verified 编程与软件工程	77.80开启思考	76.80开启思考｜工具	80.20开启思考｜工具
τ²-Bench - Telecom Agent能力评测	98.00开启思考｜工具	--	97.80开启思考｜工具
AIME 2026 数学推理	92.70开启思考	92.50开启思考	--
FrontierMath - Tier 4 数学推理	2.10常规模式	4.20常规模式	--
IMO-AnswerBench 数学推理	82.50开启思考	81.80开启思考	--
IF Bench 指令跟随	72.00开启思考｜工具	--	70.00开启思考｜工具
BrowseComp AI Agent - 信息收集	75.90开启思考｜工具	60.60开启思考｜工具	76.30开启思考｜工具
Terminal Bench 2.0 AI Agent - 工具使用	61.10开启思考｜工具	50.80开启思考｜工具	51.70开启思考｜工具

其余 4 个 benchmark 仍可在上方图表中查看。

GLM-5 与同类模型的标准 API 价格对比

按模型并排展示标准文本输入价与输出价；若存在超长上下文加价，仅保留阈值内标准价，并在下方说明适用范围。

数据来源：DataLearnerAI，展示默认供应商的标准文本价格。 · USD / 1M tokens

模型	供应商	标准输入	标准输出	标准价适用于
GLM-5	智谱AI	$1 / 1M tokens	$3.2 / 1M tokens	—
Kimi K2.5	—	0.6 美元/100 万tokens	3 美元/100 万tokens	—
MiniMax M2.5	MiniMaxAI	$0.3 / 1M tokens	$2.4 / 1M tokens	—

历代版本对比

GLM-5 系列各版本的评测成绩纵向对比

评测类别:

柱状图按当前筛选范围内每个模型在各评测中的最高分展示；具体模式明细请看下方表格。

11 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。· 点击任意行可切换下方趋势图。

评测项	GLM-5当前	GLM-4.7	GLM-4.6	GLM-4.5
GPQA Diamond 综合评估	86.00开启思考	85.70开启思考	82.90开启思考｜工具	79.10开启思考
HLE 综合评估	50.40开启思考｜工具	42.80开启思考｜工具	30.40开启思考｜工具	14.40开启思考
SWE-bench Verified 编程与软件工程	77.80开启思考	73.80开启思考｜工具	68.00常规模式	64.20开启思考
Terminal Bench Hard Agent能力评测	43.00开启思考｜工具	33.30开启思考｜工具	--	--
τ²-Bench Agent能力评测	89.70开启思考｜工具	87.40开启思考｜工具	75.90开启思考｜工具	--
τ²-Bench - Telecom Agent能力评测	98.00开启思考｜工具	--	71.00开启思考｜工具	--
AIME 2026 数学推理	92.70开启思考	92.90开启思考	--	--
FrontierMath - Tier 4 数学推理	2.10常规模式	2.10常规模式	2.10常规模式	--
IF Bench 指令跟随	72.00开启思考｜工具	--	43.00开启思考	--
BrowseComp AI Agent - 信息收集	75.90开启思考｜工具	52.00开启思考｜工具	45.10开启思考｜工具	--
Terminal Bench 2.0 AI Agent - 工具使用	61.10开启思考｜工具	41.00开启思考｜工具	--	--

单评测历史趋势图

当前查看：GPQA Diamond · 综合评估

选择评测

常规常规 + 工具推理推理 + 工具深度推理深度推理 + 工具

横轴为模型与发布时间，纵轴为分数；同一模式会用实线串起版本变化，同代不同模式继续用虚线辅助对齐。

GLM-5 所在系列的标准 API 价格对比

按模型并排展示标准文本输入价与输出价；若存在超长上下文加价，仅保留阈值内标准价，并在下方说明适用范围。

数据来源：DataLearnerAI，展示默认供应商的标准文本价格。 · USD / 1M tokens

模型	供应商	标准输入	标准输出	标准价适用于
GLM-5	智谱AI	$1 / 1M tokens	$3.2 / 1M tokens	—
GLM-4.7	—	0.6 美元/100万 tokens	2.2 美元/100万 tokens	—
GLM-4.6	—	0.6 美元/ 100 万 tokens	2.2 美元/ 100 万 tokens	—
GLM-4.5	—	0.6 美元/100 万tokens	2.2 美元/100 万tokens	—

GLM-5 评测深度分析

GLM-5 当前已收录的代表性评测结果包括 τ²-Bench（4 / 40，得分 89.70）、HLE（15 / 149，得分 50.40）、τ²-Bench - Telecom（5 / 35，得分 98）。本页还提供与 3 个竞品模型及 4 个前代或同系列模型的对比，在有数据时会展示性能和价格视图。并附有 2 个数据来源链接供参考。

GLM-5作为智谱AI的第五代旗舰模型，在多个维度上实现了显著提升：

核心性能指标：

数学推理：AIME 2026得分92.7%，GPQA-Diamond得分86.0%
编程能力：SWE-bench Verified达到77.8%，SWE-bench Multilingual为73.3%
Agent任务：BrowseComp得分62.0，Terminal-Bench 2.0达到56.2
人文推理：HLE（使用工具）得分50.4，排名第3

模型规模：

总参数：744B（7440亿）
激活参数：40B（400亿）
采用MoE（混合专家）架构
上下文长度：200K tokens

二、在开源模型中的地位

GLM-5在开源模型阵营中表现突出：

三、与顶级闭源模型的差距

虽然GLM-5在开源领域表现优异，但与顶级闭源模型仍存在差距：

与Claude Opus 4.5的对比：

SWE-bench Verified：GLM-5（77.8%）vs Claude Opus 4.5（80.9%）
官方定位：在软件工程任务上"接近"Opus 4.5的使用体验
在复杂推理和长期规划上仍有提升空间

优势领域：

成本效益：API价格仅为主流模型的20%左右
推理速度：优化后的架构提供更快响应
开源透明：完全开源，支持本地部署和定制

四、技术创新亮点

五、应用场景优势

特别擅长的领域：

Agentic Engineering：从"Vibe Coding"到系统化工程
前端开发：构建成功率达98%，较前代提升26个百分点
长期任务规划：自主完成多步复杂工作流
代码智能体：兼容Claude Code、Cline等主流工具

六、综合评价

优势：

开源模型中的综合能力第一梯队
极高的参数效率和成本优势
在Agent和编程任务上表现卓越
MIT开源协议，商用友好

不足：

⚠️ 与顶级闭源模型（如Claude Opus 4.5）仍有3-5%的性能差距
⚠️ 在某些复杂推理场景下表现略逊于Gemini 3 Pro

总结： GLM-5是目前开源模型中最强大的选择之一，特别适合需要高性价比AI解决方案的企业和开发者。它在编程、Agent任务和系统工程方面的能力已经达到准一线水平，是国产开源大模型的重要里程碑。