GLM-5 评测深度分析

GLM-5 当前已收录的代表性评测结果包括 τ²-Bench(4 / 40,得分 89.70)、HLE(19 / 159,得分 50.40)、τ²-Bench - Telecom(5 / 35,得分 98)。本页还提供与 3 个竞品模型及 4 个前代或同系列模型的对比,在有数据时会展示性能和价格视图。并附有 2 个数据来源链接供参考。

GLM-5作为智谱AI的第五代旗舰模型,在多个维度上实现了显著提升:

核心性能指标:

  • 数学推理:AIME 2026得分92.7%,GPQA-Diamond得分86.0%
  • 编程能力:SWE-bench Verified达到77.8%,SWE-bench Multilingual为73.3%
  • Agent任务:BrowseComp得分62.0,Terminal-Bench 2.0达到56.2
  • 人文推理:HLE(使用工具)得分50.4,排名第3

模型规模:

  • 总参数:744B(7440亿)
  • 激活参数:40B(400亿)
  • 采用MoE(混合专家)架构
  • 上下文长度:200K tokens

二、在开源模型中的地位

GLM-5在开源模型阵营中表现突出

  1. 多项基准测试领先

    • SWE-bench Verified(77.8%):开源模型第一
    • Terminal Bench 2.0(61.1%):开源模型第三
    • τ²-Bench(89.7%):开源模型第二
  2. 超越同类竞品

    • 全面超越Google Gemini 3.0 Pro的综合表现
    • 在Agent能力评测中优于多数开源模型
    • 前端开发构建成功率达98%(CC-Bench-V2)
  3. 参数效率优势

    • 相比前代GLM-4.7(355B参数)规模翻倍
    • 但激活参数仅40B,保持高效推理

三、与顶级闭源模型的差距

虽然GLM-5在开源领域表现优异,但与顶级闭源模型仍存在差距:

与Claude Opus 4.5的对比:

  • SWE-bench Verified:GLM-5(77.8%)vs Claude Opus 4.5(80.9%)
  • 官方定位:在软件工程任务上"接近"Opus 4.5的使用体验
  • 在复杂推理和长期规划上仍有提升空间

优势领域:

  • 成本效益:API价格仅为主流模型的20%左右
  • 推理速度:优化后的架构提供更快响应
  • 开源透明:完全开源,支持本地部署和定制

四、技术创新亮点

  1. 架构优化

    • 首次集成DeepSeek Sparse Attention机制
    • 大幅降低部署成本,提升Token效率
    • 支持无损长文本性能
  2. 训练方法创新

    • 引入"Slime"异步强化学习框架
    • 预训练数据从23T提升至28.5T
    • 异步Agent强化学习算法
  3. 能力融合

    • 首个原生融合推理、编码、Agent能力的开源模型
    • 支持思考模式(Thinking Mode)和常规模式切换

五、应用场景优势

特别擅长的领域:

  1. Agentic Engineering:从"Vibe Coding"到系统化工程
  2. 前端开发:构建成功率达98%,较前代提升26个百分点
  3. 长期任务规划:自主完成多步复杂工作流
  4. 代码智能体:兼容Claude Code、Cline等主流工具

六、综合评价

优势:

  • 开源模型中的综合能力第一梯队
  • 极高的参数效率和成本优势
  • 在Agent和编程任务上表现卓越
  • MIT开源协议,商用友好

不足:

  • ⚠️ 与顶级闭源模型(如Claude Opus 4.5)仍有3-5%的性能差距
  • ⚠️ 在某些复杂推理场景下表现略逊于Gemini 3 Pro

总结: GLM-5是目前开源模型中最强大的选择之一,特别适合需要高性价比AI解决方案的企业和开发者。它在编程、Agent任务和系统工程方面的能力已经达到准一线水平,是国产开源大模型的重要里程碑。

评测结果

GLM-5

评测结果

思考模式
工具使用

综合评估

共 5 项评测
评测名称 / 模式
得分
排名/总数
GPQA Diamond
开启思考
86
44 / 179
50.40
19 / 159
HLE
开启思考
30.50
75 / 159
ARC-AGI
开启思考
44.70
44 / 65
ARC-AGI-2
开启思考
4.90
44 / 59

编程与软件工程

共 1 项评测
评测名称 / 模式
得分
排名/总数
SWE-bench Verified
开启思考
77.80
23 / 108

Agent能力评测

共 3 项评测
评测名称 / 模式
得分
排名/总数

数学推理

共 3 项评测
评测名称 / 模式
得分
排名/总数
AIME 2026
开启思考
92.70
8 / 15
IMO-AnswerBench
开启思考
82.50
14 / 20
2.10
56 / 80

指令跟随

共 1 项评测
评测名称 / 模式
得分
排名/总数
72
10 / 29

AI Agent - 信息收集

共 2 项评测
评测名称 / 模式
得分
排名/总数
75.90
19 / 45
BrowseComp
开启思考
62
26 / 45

AI Agent - 工具使用

共 1 项评测
评测名称 / 模式
得分
排名/总数
61.10
18 / 46

生产力知识

共 1 项评测
评测名称 / 模式
得分
排名/总数
GDPval-AA
开启思考
46
14 / 21

长上下文能力

共 1 项评测
评测名称 / 模式
得分
排名/总数
AA-LCR
开启思考
63
12 / 13

OpenClaw智能体能力综合测评

共 2 项评测
评测名称 / 模式
得分
排名/总数
Claw Bench
开启思考工具
91.70
5 / 29
Pinch Bench
开启思考工具
86.40
12 / 37

竞品对比

GLM-5 与同类主流模型的评测得分对比

评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;百分制评测使用原始高度,超出 0-100 的评测按该评测内相对比例缩放,标签仍保留原始分数。

12 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。

评测项GLM-5当前Kimi K2.5MiniMax M2.5
ARC-AGI
综合评估
44.70开启思考
65.30开启思考
63.70开启思考
ARC-AGI-2
综合评估
4.90开启思考
11.80开启思考
4.90开启思考
GPQA Diamond
综合评估
86.00开启思考
87.60开启思考
85.20开启思考
HLE
综合评估
50.40开启思考 | 工具
50.20开启思考 | 工具
19.40开启思考
SWE-bench Verified
编程与软件工程
77.80开启思考
76.80开启思考 | 工具
80.20开启思考 | 工具
τ²-Bench - Telecom
Agent能力评测
98.00开启思考 | 工具
--
97.80开启思考 | 工具
AIME 2026
数学推理
92.70开启思考
92.50开启思考
--
2.10常规模式
4.20常规模式
--
IMO-AnswerBench
数学推理
82.50开启思考
81.80开启思考
--
IF Bench
指令跟随
72.00开启思考 | 工具
--
70.00开启思考 | 工具
BrowseComp
AI Agent - 信息收集
75.90开启思考 | 工具
60.60开启思考 | 工具
76.30开启思考 | 工具
Terminal Bench 2.0
AI Agent - 工具使用
61.10开启思考 | 工具
50.80开启思考 | 工具
51.70开启思考 | 工具
其余 4 个 benchmark 仍可在上方图表中查看。

GLM-5 与同类模型的标准 API 价格对比

按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。

数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens

模型供应商标准输入标准输出标准价适用于
GLM-5
智谱AI$1 / 1M tokens$3.2 / 1M tokens
MiniMax M2.5
MiniMaxAI$0.3 / 1M tokens$2.4 / 1M tokens

历代版本对比

GLM-5 系列各版本的评测成绩纵向对比

评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;百分制评测使用原始高度,超出 0-100 的评测按该评测内相对比例缩放,标签仍保留原始分数。

11 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。· 点击任意行可切换下方趋势图。

评测项GLM-5当前GLM-4.7GLM-4.6GLM-4.5
GPQA Diamond
综合评估
86.00开启思考
85.70开启思考
82.90开启思考 | 工具
79.10开启思考
HLE
综合评估
50.40开启思考 | 工具
42.80开启思考 | 工具
30.40开启思考 | 工具
14.40开启思考
SWE-bench Verified
编程与软件工程
77.80开启思考
73.80开启思考 | 工具
68.00常规模式
64.20开启思考
Terminal Bench Hard
Agent能力评测
43.00开启思考 | 工具
33.30开启思考 | 工具
--
--
τ²-Bench
Agent能力评测
89.70开启思考 | 工具
87.40开启思考 | 工具
75.90开启思考 | 工具
--
τ²-Bench - Telecom
Agent能力评测
98.00开启思考 | 工具
--
71.00开启思考 | 工具
--
AIME 2026
数学推理
92.70开启思考
92.90开启思考
--
--
2.10常规模式
2.10常规模式
2.10常规模式
--
IF Bench
指令跟随
72.00开启思考 | 工具
--
43.00开启思考
--
BrowseComp
AI Agent - 信息收集
75.90开启思考 | 工具
52.00开启思考 | 工具
45.10开启思考 | 工具
--
Terminal Bench 2.0
AI Agent - 工具使用
61.10开启思考 | 工具
41.00开启思考 | 工具
--
--

单评测历史趋势图

当前查看:GPQA Diamond · 综合评估

选择评测
常规常规 + 工具推理推理 + 工具深度推理深度推理 + 工具

横轴为模型与发布时间,纵轴为分数;同一模式会用实线串起版本变化,同代不同模式继续用虚线辅助对齐。

GLM-5 所在系列的标准 API 价格对比

按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。

数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens

模型供应商标准输入标准输出标准价适用于
GLM-5
智谱AI$1 / 1M tokens$3.2 / 1M tokens

数据来源