DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
页面导航
大模型列表GLM 5.1评测分析
智谱AI

GLM 5.1

智谱AI
发布机构
智谱AI
模型类型
推理大模型
参数量
754亿
上下文长度
200K (204800)
最大输出
125K (128000)
发布时间
2026/3/27
架构
Mixture of Experts (MoE)
激活参数
40亿
GitHubHuggingFace论文
更新于 2026/5/28
1,256 次阅读
查看模型详情 →

GLM 5.1 评测深度分析

GLM 5.1 是智谱AI于2026年4月发布的旗舰开源大语言模型,在数学推理(AIME 2026得分95.3,全球第2)和软件工程(SWE-Bench Pro得分58.4,开源模型第一)方向表现较强。本页提供GLM 5.1在9项主流基准上的完整评测数据,以及与Kimi K2.6、DeepSeek-V4-Pro等同类模型的横向对比、GLM系列历代版本的纵向对比,并附有API定价信息和能力分析。

GLM 5.1 目前收录了 9 项评测数据,覆盖综合评估、数学推理、软件工程和 AI Agent 四个方向,但各方向收录的基准数量差异较大,且并非所有竞品模型都参与了相同的基准测试,因此跨方向的横向比较需谨慎。

理解这些数据有一个关键前提:GLM 5.1 的所有成绩均来自思考模式(reasoning mode),部分基准还额外开启了工具调用或联网能力。以 HLE 为例,无工具条件下得分 31.0(全球第 61),开启工具后上升至 52.3(全球第 9),两个条件下的排名相差超过 50 位。这说明 GLM 5.1 的工具调用能力对其整体表现有显著影响,评估时需区分"模型本身的推理能力"与"模型在有工具支撑下的任务完成能力"。


与同类模型的横向比较

将 GLM 5.1 与 Kimi K2.6、MiniMax-M2.7、DeepSeek-V4-Pro 对比,各模型取最佳得分:

评测基准GLM 5.1Kimi K2.6MiniMax-M2.7DeepSeek-V4-Pro
GPQA Diamond86.290.587.090.1
HLE(含工具)52.354.028.048.2
SWE-Bench Pro58.458.656.255.4
BrowseComp79.383.2—83.4
Terminal Bench 2.063.566.7—67.9
Tool Decathlon40.750.0——
AIME 202695.396.4——
IMO-AnswerBench83.886.0—89.8

加粗为各行最高分。

在对比的 8 项基准中,GLM 5.1 没有在任何一项取得最高分。与 Kimi K2.6 相比,GLM 5.1 在软件工程方向差距最小(SWE-Bench Pro 仅差 0.2 分),在工具使用编排方向差距最大(Tool Decathlon 落后约 9 分)。DeepSeek-V4-Pro 在联网信息收集和终端工具执行上略优于 GLM 5.1,但在含工具的综合评估(HLE)上低于 GLM 5.1。MiniMax-M2.7 由于数据缺失较多,难以全面对比。

总体来看,GLM 5.1 与 Kimi K2.6 属于当前开源模型的同一梯队,两者在多数基准上差距较小,但 Kimi K2.6 在目前有数据的项目中均不低于 GLM 5.1。


历代版本的改进趋势

评测基准GLM-4.6GLM-4.7GLM-5GLM 5.1
GPQA Diamond82.985.786.086.2
HLE(含工具)30.442.850.452.3
BrowseComp45.152.075.979.3
Terminal Bench 2.0—41.061.163.5
SWE-Bench Pro—40.6—58.4
AIME 2026—92.992.795.3

从趋势来看,HLE 和 BrowseComp 在 GLM-4.7 到 GLM-5 之间提升幅度最大,说明这一阶段是综合推理和 Agent 能力的主要突破期。GLM-5 到 GLM 5.1 的提升幅度整体收窄,更像是定向增强而非全面代际跃升,重点集中在软件工程和长程任务方向。GPQA Diamond 历代变化不足 4 分,改进相对有限。


几个值得关注的问题

长程任务能力的验证程度有限

智谱 AI 官方声称 GLM 5.1 支持单次任务持续自主工作 8 小时,目前主要通过官方 demo 展示,包括复刻 macOS 桌面界面、构建 Linux 系统等场景。这类演示能够说明模型在特定条件下的能力上限,但尚无独立第三方在标准化基准上对小时级任务的系统性评测。Terminal Bench 2.0(63.5)可部分反映其长程工具执行能力,但该基准并非专门针对小时级任务设计。用户在实际场景中的表现会因任务类型和复杂度不同而存在差异。

工具依赖性较强

如前所述,GLM 5.1 在有无工具环境下的表现差异较大。这意味着它在有完整工具链支撑的工程环境中更能发挥优势,而在纯文本推理或工具受限的场景下,竞争力相对减弱。

价格随版本迭代明显上涨

GLM 5.1 相较于 GLM-5,输入价格从 $1.00 上涨至 $1.40(+40%),输出价格从 $3.20 上涨至 $4.40(+37.5%)。在对比模型中,GLM 5.1 的输出价格是最高的。对于输出量较大的使用场景,这一成本变化需要纳入选型考量。


小结

GLM 5.1 在数学推理和软件工程方向有较强表现,在开源模型中属于前列。其主要适用场景是有工具环境支撑的工程类任务,Agent 工具调用能力是其发挥优势的重要前提。

与竞品相比,GLM 5.1 与 Kimi K2.6 处于相近水平,两者在多数基准上差距不大,但目前可对比的数据中 Kimi K2.6 整体略优。官方重点宣传的长程任务能力目前缺乏系统性第三方验证,是否适合具体场景需用户自行评估。价格方面相较前代有明显提升,选型时需结合实际用量综合判断。

评测结果

GLM 5.1

评测结果

思考模式
工具使用
联网能力

综合评估

共 3 项评测
评测名称 / 模式
得分
排名/总数
GPQA Diamond
思考模式
86.20
41 / 177
HLE
思考模式
31
66 / 154
HLE
思考模式工具
52.30
10 / 154

编程与软件工程

共 1 项评测
评测名称 / 模式
得分
排名/总数
SWE-Bench Pro - Public
思考模式工具
58.40
6 / 40

AI Agent - 信息收集

共 1 项评测
评测名称 / 模式
得分
排名/总数
BrowseComp
思考模式工具联网
79.30
11 / 43

AI Agent - 工具使用

共 2 项评测
评测名称 / 模式
得分
排名/总数
Terminal Bench 2.0
思考模式工具
63.50
13 / 46
Tool Decathlon
思考模式工具
40.70
3 / 7

数学推理

共 2 项评测
评测名称 / 模式
得分
排名/总数
AIME 2026
思考模式
95.30
2 / 14
IMO-AnswerBench
思考模式
83.80
10 / 19
与其他模型对比

竞品对比

GLM 5.1 与同类主流模型的评测得分对比

GLM 5.1Kimi K2.6MiniMax-M2.7DeepSeek-V4-Pro
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;具体模式明细请看下方表格。

8 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。

评测项GLM 5.1当前Kimi K2.6MiniMax-M2.7DeepSeek-V4-Pro
GPQA Diamond
综合评估
86.20开启思考
90.50开启思考
87.00开启思考
90.10思考水平·高
HLE
综合评估
52.30开启思考 | 工具
54.00开启思考 | 工具
28.00开启思考
48.20思考水平·极高 | 工具
SWE-Bench Pro - Public
编程与软件工程
58.40开启思考 | 工具
58.60开启思考 | 工具
56.20开启思考 | 工具
55.40思考水平·极高 | 工具
BrowseComp
AI Agent - 信息收集
79.30开启思考 | 工具
83.20开启思考 | 工具
--
83.40思考水平·极高 | 工具
Terminal Bench 2.0
AI Agent - 工具使用
63.50开启思考 | 工具
66.70开启思考 | 工具
--
67.90思考水平·极高 | 工具
Tool Decathlon
AI Agent - 工具使用
40.70开启思考 | 工具
50.00开启思考 | 工具
--
--
AIME 2026
数学推理
95.30开启思考
96.40开启思考
--
--
IMO-AnswerBench
数学推理
83.80开启思考
86.00开启思考
--
89.80思考水平·高

GLM 5.1 与同类模型的标准 API 价格对比

按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。

数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens

模型供应商标准输入标准输出标准价适用于
GLM 5.1
智谱AI$1.4 / 1M tokens$4.4 / 1M tokens—
Kimi K2.6
Facebook AI研究实验室$0.95 / 1M tokens$4 / 1M tokens—
MiniMax-M2.7
MiniMaxAI$0.3 / 1M tokens$1.2 / 1M tokens—
DeepSeek-V4-Pro
DeepSeek-AI$0.435 / 1M tokens$0.87 / 1M tokens—

历代版本对比

GLM 5.1 系列各版本的评测成绩纵向对比

GLM 5.1GLM-5GLM-4.7GLM-4.6
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;具体模式明细请看下方表格。

7 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。· 点击任意行可切换下方趋势图。

评测项GLM 5.1当前GLM-5GLM-4.7GLM-4.6
GPQA Diamond
综合评估
86.20开启思考
86.00开启思考
85.70开启思考
82.90开启思考 | 工具
HLE
综合评估
52.30开启思考 | 工具
50.40开启思考 | 工具
42.80开启思考 | 工具
30.40开启思考 | 工具
SWE-Bench Pro - Public
编程与软件工程
58.40开启思考 | 工具
--
40.60开启思考 | 工具
--
BrowseComp
AI Agent - 信息收集
79.30开启思考 | 工具
75.90开启思考 | 工具
52.00开启思考 | 工具
45.10开启思考 | 工具
Terminal Bench 2.0
AI Agent - 工具使用
63.50开启思考 | 工具
61.10开启思考 | 工具
41.00开启思考 | 工具
--
AIME 2026
数学推理
95.30开启思考
92.70开启思考
92.90开启思考
--
IMO-AnswerBench
数学推理
83.80开启思考
82.50开启思考
--
--

单评测历史趋势图

当前查看:GPQA Diamond · 综合评估

选择评测
常规常规 + 工具推理推理 + 工具深度推理深度推理 + 工具

横轴为模型与发布时间,纵轴为分数;同一模式会用实线串起版本变化,同代不同模式继续用虚线辅助对齐。

GLM 5.1 所在系列的标准 API 价格对比

按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。

数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens

模型供应商标准输入标准输出标准价适用于
GLM 5.1
智谱AI$1.4 / 1M tokens$4.4 / 1M tokens—
GLM-5
智谱AI$1 / 1M tokens$3.2 / 1M tokens—
GLM-4.7
—0.6 美元/100万 tokens2.2 美元/100万 tokens—
GLM-4.6
—0.6 美元/ 100 万 tokens2.2 美元/ 100 万 tokens—

数据来源

z.aiz.ai