DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
首页模型对比GLM-5.1相比较GLM-5升级了什么?GLM-5.1与GLM-5全面数据和评测对比

GLM-5.1相比较GLM-5升级了什么?GLM-5.1与GLM-5全面数据和评测对比

自动展示选中模型的核心信息与各评测得分,可左右滑动查看完整表格。 当前对比 2 个模型的评测数据与核心参数。

478 次浏览

一句话结论:GLM-5.1 是一次方向明确的垂直升级——编程与 Agentic 能力出现实质性跨越,SWE-Bench Pro 跻身全球第一,但数学与通用推理基本原地踏步。选哪个,取决于你的核心场景。


两者是什么关系?

GLM-5.1 与 GLM-5 共享同一基座架构(MoE,754B 总参数,40B 激活参数),区别完全来自后训练阶段的专项优化。Z.ai 将 GLM-5.1 定位为「下一代旗舰 Agentic 工程模型」,核心改进集中在编程、工具调用和长链任务上,而非全面的能力迭代。

GLM-5.1 已于 2026 年 4 月 8 日以 MIT 协议开源,权重发布于 HuggingFace 和 ModelScope,支持 vLLM、SGLang、KTransformers 等主流推理框架本地部署。API 定价与 GLM-5 一致。


编程与 Agentic:全面领先

SWE-Bench Pro(复杂软件工程任务)是这次升级最具说服力的数字:GLM-5.1 得分 58.4,GLM-5 为 55.1,同时超过 Claude Opus 4.6(57.3)和 GPT-5.4(57.7),是当前公开结果中的最高分。

其余编程和 Agentic 基准的对比如下:

基准GLM-5.1GLM-5差值
SWE-Bench Pro58.455.1+3.3
NL2Repo(仓库生成)42.735.9+6.8
Terminal-Bench 2.0(Terminus-2)63.556.2+7.3
Terminal-Bench 2.0(Claude Code)69.056.2+12.8
CyberGym(网络安全)68.748.3+20.4
BrowseComp68.062.0+6.0
Vending Bench 2$5,634$4,432+27%

CyberGym 超过 20 分的差距最为突出,GLM-5.1 以 68.7 分在该项中排名第一(Claude Opus 4.6 为 66.6)。


数学与通用推理:基本持平

这是这次升级另一面值得注意的事实:GLM-5.1 在数学和科学推理上几乎没有增益,部分项目 GLM-5 反而略高:

基准GLM-5.1GLM-5
AIME 202695.395.4
HMMT Nov. 202594.096.9
HMMT Feb. 202682.682.8
GPQA-Diamond86.286.0
HLE31.030.5

这不是缺陷,而是资源分配的结果——Z.ai 的后训练投入集中在 Agentic 任务分布上。如果你的核心场景是数学竞赛题或科学问答,两个模型能力相当,GLM-5 在第三方评测覆盖上更充分。


核心设计逻辑:「长时运行」

GLM-5.1 最值得单独说明的设计目标,是解决以往模型在 Agentic 任务中「早早见顶」的问题:之前的模型(包括 GLM-5)倾向于先用熟悉策略快速取得初期进展,随后停滞,给更多时间也无济于事。

GLM-5.1 通过三个场景来验证这一能力:

场景一:向量数据库优化,600+ 轮迭代 任务是在 Rust 框架上实现一个高性能近似最近邻搜索数据库(SIFT-1M,Recall ≥ 95%,目标最大化 QPS)。单次 50 轮工具调用的最优解为 3,547 QPS(Claude Opus 4.6 保持的记录)。在不限轮次的外层优化循环中,GLM-5.1 在 600+ 次迭代、6,000+ 次工具调用后达到 21,500 QPS,约为单轮最优解的 6 倍。优化路径呈现出阶梯型特征:在同一策略内持续微调,再在关键节点发生结构性跃迁(IVF 聚类、f16 向量压缩、u8 粗排 + f16 精排两阶段流水线等),共经历 6 次此类结构性切换,均由模型在分析自身基准日志后自主发起。

场景二:GPU 内核优化,1,000+ 轮 KernelBench Level 3 对 50 个问题评估模型将 PyTorch 实现转化为更快 GPU 内核的能力(MobileNet、VGG、MiniGPT、Mamba 等完整架构)。GLM-5 较早进入增益平台期;GLM-5.1 达到 3.6 倍加速比,并在更长时间内持续改进。Claude Opus 4.6 仍是该项最强,最终达到 4.2 倍,且在测试结束时仍有提升空间。

场景三:8 小时构建 Linux 桌面环境 给定一句自然语言描述,不提供起始代码和设计稿,构建一个运行在浏览器中的 Linux 风格桌面应用。大多数模型会快速交付一个带静态任务栏和占位窗口的骨架后宣告完成。将 GLM-5.1 包裹在一个「执行→自评→继续」的简单循环中运行 8 小时后,最终结果包含文件浏览器、终端、文本编辑器、系统监视器、计算器和游戏,且各组件集成于统一 UI 风格中,而非独立拼凑。


怎么选

  • 编程、Agentic 工作流、安全研究、终端任务:选 GLM-5.1。SWE-Bench Pro 第一和 CyberGym 第一均有实质意义,长时运行能力在自动化流水线中优势更明显。
  • 数学推理、科学问答、通用对话:GLM-5 和 GLM-5.1 能力相当,GLM-5 开源更早、社区资源更完整。
  • API 调用:两者定价一致,无切换成本。GLM-5.1 Coding Plan 订阅用户可在配置文件中直接更新模型名称启用。

数据来源:Z.ai 官方博客及 HuggingFace 模型卡(zai-org/GLM-5.1),发布于 2026 年 4 月 8 日。DataLearner 将持续跟进第三方独立评测结果。

智谱AI

GLM 5.1

智谱AI

发布时间
2026-03-27
上下文
200K
参数量
754 (act 40)
最大输出
128,000 tokens
查看详情·在线体验

能力分布概览

每条轴代表一个评测领域的平均水平,并统一映射到 100 分雷达坐标。

视图: 非并行模式平均·4 个维度
GLM 5.1

相对优势: AI Agent - 信息收集 +10.3 / 相对落后: 暂无明显落后

GLM-5

相对优势: 暂无明显优势 / 相对落后: AI Agent - 信息收集 -10.3

计算口径:同一模型在同一 benchmark 下先平均当前模式范围内的所有分数,不取最高分;再按评测领域对这些 benchmark 分数求平均。只纳入至少两个模型有数据的 benchmark,缺项不按 0 分处理。

综合领先

GLM 5.1 · 76.73

单项最高

GLM 5.1 · AIME 2026 95.30

模态覆盖

GLM 5.1 · 1 种模态

正面对比

GLM 5.1
6
GLM-5
领先持平落后

6

评测基准

6

领先项

0

落后项

+1.97

平均分差

性能评测对比

支持不同模式与工具的榜单对比。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

思考模式
工具使用
联网能力
筛选: 最佳可用·2 个模式 · 6 评测基准
图表加载中...

评测得分表格

完整列出各模型/模式的评测得分,便于横向比较。

6 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。

评测项GLM 5.1GLM-5
GPQA Diamond
综合评估
86.20开启思考
86.00开启思考
HLE
综合评估
52.30开启思考 | 工具
50.40开启思考 | 工具
BrowseComp
AI Agent - 信息收集
79.30开启思考 | 工具
75.90开启思考 | 工具
Terminal Bench 2.0
AI Agent - 工具使用
63.50开启思考 | 工具
61.10开启思考 | 工具
AIME 2026
数学推理
95.30开启思考
92.70开启思考
IMO-AnswerBench
数学推理
83.80开启思考
82.50开启思考

API 价格对比

输入输出 token 价格并排展示

能力与规格明细

是否 MoE、商业授权、模态支持等附加能力对比。

功能与规格
GLM 5.1智谱AI
GLM-5智谱AI
核心规格发布时间
2026-03-272026-02-11
上下文
200K200K
参数量
7547440
激活参数量
40400
最大输出
128000131072
MoE 架构
支持支持
开源与许可代码开源
未开源未提供
权重开源
未开源未开源
商业授权
免费商用授权免费商用授权
模态支持文本 输入/输出
/
/
资料来源论文 / 报告
GLM-5.1: Towards Long-Horizon TasksGLM-5: From Vibe Coding to Agentic Engineering
智谱AI

GLM-5

智谱AI

发布时间
2026-02-11
上下文
200K
参数量
7,440 (act 400)
最大输出
131,072 tokens
查看详情·在线体验