DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
Tools
语言中文

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
目录
大模型列表GLM-5评测分析
智谱AI

GLM-5

智谱AI
发布机构
智谱AI
参数量
7440.0
上下文长度
200K
最大输出
131072
发布时间
2026/2/11
架构
Mixture of Experts (MoE)
激活参数
400B
GitHubHuggingFace论文
更新于 2026/3/23
1,032 次阅读
查看模型详情 →

GLM-5 评测深度分析

深度分析

GLM-5 当前已收录的代表性评测结果包括 HLE(6 / 113,得分 50.40)、τ²-Bench(4 / 39,得分 89.70)、SWE-bench Verified(11 / 90,得分 77.80)。本页还提供与 3 个竞品模型及 4 个前代或同系列模型的对比,在有数据时会展示性能和价格视图。并附有 2 个数据来源链接供参考。

GLM-5作为智谱AI的第五代旗舰模型,在多个维度上实现了显著提升:

核心性能指标:

  • 数学推理:AIME 2026得分92.7%,GPQA-Diamond得分86.0%
  • 编程能力:SWE-bench Verified达到77.8%,SWE-bench Multilingual为73.3%
  • Agent任务:BrowseComp得分62.0,Terminal-Bench 2.0达到56.2
  • 人文推理:HLE(使用工具)得分50.4,排名第3

模型规模:

  • 总参数:744B(7440亿)
  • 激活参数:40B(400亿)
  • 采用MoE(混合专家)架构
  • 上下文长度:200K tokens

二、在开源模型中的地位

GLM-5在开源模型阵营中表现突出:

  1. 多项基准测试领先

    • SWE-bench Verified(77.8%):开源模型第一
    • Terminal Bench 2.0(61.1%):开源模型第三
    • τ²-Bench(89.7%):开源模型第二
  2. 超越同类竞品

    • 全面超越Google Gemini 3.0 Pro的综合表现
    • 在Agent能力评测中优于多数开源模型
    • 前端开发构建成功率达98%(CC-Bench-V2)
  3. 参数效率优势

    • 相比前代GLM-4.7(355B参数)规模翻倍
    • 但激活参数仅40B,保持高效推理

三、与顶级闭源模型的差距

虽然GLM-5在开源领域表现优异,但与顶级闭源模型仍存在差距:

与Claude Opus 4.5的对比:

  • SWE-bench Verified:GLM-5(77.8%)vs Claude Opus 4.5(80.9%)
  • 官方定位:在软件工程任务上"接近"Opus 4.5的使用体验
  • 在复杂推理和长期规划上仍有提升空间

优势领域:

  • 成本效益:API价格仅为主流模型的20%左右
  • 推理速度:优化后的架构提供更快响应
  • 开源透明:完全开源,支持本地部署和定制

四、技术创新亮点

  1. 架构优化

    • 首次集成DeepSeek Sparse Attention机制
    • 大幅降低部署成本,提升Token效率
    • 支持无损长文本性能
  2. 训练方法创新

    • 引入"Slime"异步强化学习框架
    • 预训练数据从23T提升至28.5T
    • 异步Agent强化学习算法
  3. 能力融合

    • 首个原生融合推理、编码、Agent能力的开源模型
    • 支持思考模式(Thinking Mode)和常规模式切换

五、应用场景优势

特别擅长的领域:

  1. Agentic Engineering:从"Vibe Coding"到系统化工程
  2. 前端开发:构建成功率达98%,较前代提升26个百分点
  3. 长期任务规划:自主完成多步复杂工作流
  4. 代码智能体:兼容Claude Code、Cline等主流工具

六、综合评价

优势:

  • 开源模型中的综合能力第一梯队
  • 极高的参数效率和成本优势
  • 在Agent和编程任务上表现卓越
  • MIT开源协议,商用友好

不足:

  • ⚠️ 与顶级闭源模型(如Claude Opus 4.5)仍有3-5%的性能差距
  • ⚠️ 在某些复杂推理场景下表现略逊于Gemini 3 Pro

总结: GLM-5是目前开源模型中最强大的选择之一,特别适合需要高性价比AI解决方案的企业和开发者。它在编程、Agent任务和系统工程方面的能力已经达到准一线水平,是国产开源大模型的重要里程碑。

评测结果

GLM-5

评测结果

思考模式
全部思考
思考模式细分 (2)
全部默认 (thinking)thinking
工具使用
全部使用工具不使用工具

综合评估

共 1 项评测
评测名称 / 模式
得分
排名/总数
HLE
thinking使用工具
50.40
6 / 113

Agent能力评测

共 4 项评测
评测名称 / 模式
得分
排名/总数
τ²-Bench - Telecom
thinking使用工具
98
5 / 33
τ²-Bench
thinking使用工具
89.70
4 / 39
Pinch Bench
思考模式使用工具
80.30
13 / 38
Terminal Bench Hard
thinking使用工具
43
2 / 12

指令跟随

共 1 项评测
评测名称 / 模式
得分
排名/总数
IF Bench
thinking使用工具
72
7 / 26

AI Agent - 信息收集

共 1 项评测
评测名称 / 模式
得分
排名/总数
BrowseComp
thinking使用工具
75.90
10 / 32

AI Agent - 工具使用

共 1 项评测
评测名称 / 模式
得分
排名/总数
Terminal Bench 2.0
thinking使用工具
61.10
6 / 27
与其他模型对比

同类模型横向对比

将 GLM-5 与同类头部模型进行多维评测对比,直观展示各项得分差异

GLM-5(当前模型)DeepSeek V4Kimi K2.5MiniMax M2.5
评测类别:

评测结果柱状对比图

水平视图(数据较多时自动切换)

GLM-5:
thinking
thinking + 使用工具 + 工具
思考模式 + 工具
Kimi K2.5:
思考模式 + 工具
思考模式 + 工具
思考模式
MiniMax M2.5:
thinking
thinking + 使用工具 + 工具
思考模式 + 工具
图表标签中的模式图标:思考模式工具使用

评测得分对比

前 12 项可对比评测得分汇总

评测项GLM-5(当前)Kimi K2.5MiniMax M2.5
GPQA Diamond
综合评估
86.00
thinking
87.60
思考模式(无工具)
85.20
thinking
HLE
综合评估
50.40
thinking + 使用工具
30.10
思考模式(无工具)
19.40
thinking
SWE-bench Verified
编程与软件工程
77.80
thinking
76.80
思考模式(工具)
80.20
thinking + 使用工具
Pinch Bench
Agent能力评测
80.30
思考模式(工具)
78.90
思考模式(工具)
79.30
思考模式(工具)
τ²-Bench - Telecom
Agent能力评测
98.00
thinking + 使用工具
--
97.80
thinking + 使用工具
IF Bench
指令跟随
72.00
thinking + 使用工具
--
70.00
thinking + 使用工具
BrowseComp
AI Agent - 信息收集
75.90
thinking + 使用工具
60.60
思考模式(工具+联网)
76.30
thinking + 使用工具
Terminal Bench 2.0
AI Agent - 工具使用
61.10
thinking + 使用工具
50.80
思考模式(工具)
51.70
thinking + 使用工具
AIME 2026
数学推理
92.70
thinking
92.50
思考模式(无工具)
--
IMO-AnswerBench
数学推理
82.50
thinking
81.80
思考模式(无工具)
--
GDPval-AA
生产力知识
46.00
thinking
40.00
思考模式(无工具)
36.00
thinking
AA-LCR
长上下文能力
63.00
thinking
65.00
思考模式(无工具)
69.50
thinking

GLM-5 与同类模型的标准 API 价格对比

按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。

数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens

模型供应商标准输入标准输出标准价适用于
GLM-5
当前模型
智谱AI$1 / 1M tokens$3.2 / 1M tokens—
Kimi K2.5
—0.6 美元/100 万tokens3 美元/100 万tokens—
MiniMax M2.5
MiniMaxAI$0.3 / 1M tokens$2.4 / 1M tokens—

版本迭代对比

追踪 GLM-5 系列模型的迭代轨迹,直观展示代际性能变化

GLM-5(当前模型)GLM-4.7GLM-4.6GLM-4.5GLM4
评测类别:

评测结果柱状对比图

水平视图(数据较多时自动切换)

GLM-5:
thinking
thinking + 使用工具 + 工具
GLM-4.7:
thinking
thinking + 使用工具 + 工具
GLM-4.6:
normal
GLM-4.5:
thinking
图表标签中的模式图标:思考模式工具使用

评测得分对比

前 10 项可对比评测得分汇总

评测项GLM-5(当前)GLM-4.7GLM-4.6GLM-4.5
GPQA Diamond
综合评估
86.00
thinking
85.70
thinking
82.90
thinking + 使用工具
79.10
thinking
HLE
综合评估
50.40
thinking + 使用工具
42.80
thinking + 使用工具
30.40
thinking + 使用工具
14.40
thinking
SWE-bench Verified
编程与软件工程
77.80
thinking
73.80
thinking + 使用工具
68.00
normal
64.20
thinking
Terminal Bench Hard
Agent能力评测
43.00
thinking + 使用工具
33.30
thinking + 使用工具
--
--
τ²-Bench
Agent能力评测
89.70
thinking + 使用工具
87.40
thinking + 使用工具
75.90
thinking + 使用工具
--
τ²-Bench - Telecom
Agent能力评测
98.00
thinking + 使用工具
--
71.00
thinking + 使用工具
--
IF Bench
指令跟随
72.00
thinking + 使用工具
--
43.00
thinking
--
BrowseComp
AI Agent - 信息收集
75.90
thinking + 使用工具
52.00
thinking + 使用工具
45.10
thinking + 使用工具
--
Terminal Bench 2.0
AI Agent - 工具使用
61.10
thinking + 使用工具
41.00
thinking + 使用工具
--
--
AIME 2026
数学推理
92.70
thinking
92.90
thinking
--
--

GLM-5 所在系列的标准 API 价格对比

按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。

数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens

模型供应商标准输入标准输出标准价适用于
GLM-5
当前模型
智谱AI$1 / 1M tokens$3.2 / 1M tokens—
GLM-4.7
—0.6 美元/100万 tokens2.2 美元/100万 tokens—
GLM-4.6
—0.6 美元/ 100 万 tokens2.2 美元/ 100 万 tokens—
GLM-4.5
—0.6 美元/100 万tokens2.2 美元/100 万tokens—

系列评测全景 · Beta

上半部分展示多评测全景,下半部分展示单个评测下同代不同模式(虚线连接)的结果。

提示:点击任意分数单元格可切换下方关系图。

默认显示可比评测>60%(3/10)

评测项
GLM-4.52025/7/28
GLM-4.62025/9/30
GLM-4.72025/12/22
GLM-52026/2/11
综合评估
综合评估
编程与软件工程

单评测模式关系图

当前查看:GPQA Diamond · 综合评估

选择评测
常规常规 + 工具推理推理 + 工具深度推理深度推理 + 工具

横轴为模型与发布时间,纵轴为分数;同代不同模式的散点以虚线连接。

数据来源与参考

z.aipinchbench.com