DataLearner logoDataLearnerAI
Latest AI Insights
Model Leaderboards
Benchmarks
Model Directory
Model Comparison
Resource Center
Tools
LanguageEnglish
DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

Products

  • Leaderboards
  • Model comparison
  • Datasets

Resources

  • Tutorials
  • Editorial
  • Tool directory

Company

  • About
  • Privacy policy
  • Data methodology
  • Contact

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

Privacy policyTerms of service
HomeModel CompareGLM-5.1相比较GLM-5升级了什么?GLM-5.1与GLM-5全面数据和评测对比

GLM-5.1相比较GLM-5升级了什么?GLM-5.1与GLM-5全面数据和评测对比

See key specs and per-benchmark scores for each model/mode. Scroll horizontally for all columns. 当前对比 2 个模型的评测数据与核心参数。

478 次浏览

一句话结论:GLM-5.1 是一次方向明确的垂直升级——编程与 Agentic 能力出现实质性跨越,SWE-Bench Pro 跻身全球第一,但数学与通用推理基本原地踏步。选哪个,取决于你的核心场景。


两者是什么关系?

GLM-5.1 与 GLM-5 共享同一基座架构(MoE,754B 总参数,40B 激活参数),区别完全来自后训练阶段的专项优化。Z.ai 将 GLM-5.1 定位为「下一代旗舰 Agentic 工程模型」,核心改进集中在编程、工具调用和长链任务上,而非全面的能力迭代。

GLM-5.1 已于 2026 年 4 月 8 日以 MIT 协议开源,权重发布于 HuggingFace 和 ModelScope,支持 vLLM、SGLang、KTransformers 等主流推理框架本地部署。API 定价与 GLM-5 一致。


编程与 Agentic:全面领先

SWE-Bench Pro(复杂软件工程任务)是这次升级最具说服力的数字:GLM-5.1 得分 58.4,GLM-5 为 55.1,同时超过 Claude Opus 4.6(57.3)和 GPT-5.4(57.7),是当前公开结果中的最高分。

其余编程和 Agentic 基准的对比如下:

基准GLM-5.1GLM-5差值
SWE-Bench Pro58.455.1+3.3
NL2Repo(仓库生成)42.735.9+6.8
Terminal-Bench 2.0(Terminus-2)63.556.2+7.3
Terminal-Bench 2.0(Claude Code)69.056.2+12.8
CyberGym(网络安全)68.748.3+20.4
BrowseComp68.062.0+6.0
Vending Bench 2$5,634$4,432+27%

CyberGym 超过 20 分的差距最为突出,GLM-5.1 以 68.7 分在该项中排名第一(Claude Opus 4.6 为 66.6)。


数学与通用推理:基本持平

这是这次升级另一面值得注意的事实:GLM-5.1 在数学和科学推理上几乎没有增益,部分项目 GLM-5 反而略高:

基准GLM-5.1GLM-5
AIME 202695.395.4
HMMT Nov. 202594.096.9
HMMT Feb. 202682.682.8
GPQA-Diamond86.286.0
HLE31.030.5

这不是缺陷,而是资源分配的结果——Z.ai 的后训练投入集中在 Agentic 任务分布上。如果你的核心场景是数学竞赛题或科学问答,两个模型能力相当,GLM-5 在第三方评测覆盖上更充分。


核心设计逻辑:「长时运行」

GLM-5.1 最值得单独说明的设计目标,是解决以往模型在 Agentic 任务中「早早见顶」的问题:之前的模型(包括 GLM-5)倾向于先用熟悉策略快速取得初期进展,随后停滞,给更多时间也无济于事。

GLM-5.1 通过三个场景来验证这一能力:

场景一:向量数据库优化,600+ 轮迭代 任务是在 Rust 框架上实现一个高性能近似最近邻搜索数据库(SIFT-1M,Recall ≥ 95%,目标最大化 QPS)。单次 50 轮工具调用的最优解为 3,547 QPS(Claude Opus 4.6 保持的记录)。在不限轮次的外层优化循环中,GLM-5.1 在 600+ 次迭代、6,000+ 次工具调用后达到 21,500 QPS,约为单轮最优解的 6 倍。优化路径呈现出阶梯型特征:在同一策略内持续微调,再在关键节点发生结构性跃迁(IVF 聚类、f16 向量压缩、u8 粗排 + f16 精排两阶段流水线等),共经历 6 次此类结构性切换,均由模型在分析自身基准日志后自主发起。

场景二:GPU 内核优化,1,000+ 轮 KernelBench Level 3 对 50 个问题评估模型将 PyTorch 实现转化为更快 GPU 内核的能力(MobileNet、VGG、MiniGPT、Mamba 等完整架构)。GLM-5 较早进入增益平台期;GLM-5.1 达到 3.6 倍加速比,并在更长时间内持续改进。Claude Opus 4.6 仍是该项最强,最终达到 4.2 倍,且在测试结束时仍有提升空间。

场景三:8 小时构建 Linux 桌面环境 给定一句自然语言描述,不提供起始代码和设计稿,构建一个运行在浏览器中的 Linux 风格桌面应用。大多数模型会快速交付一个带静态任务栏和占位窗口的骨架后宣告完成。将 GLM-5.1 包裹在一个「执行→自评→继续」的简单循环中运行 8 小时后,最终结果包含文件浏览器、终端、文本编辑器、系统监视器、计算器和游戏,且各组件集成于统一 UI 风格中,而非独立拼凑。


怎么选

  • 编程、Agentic 工作流、安全研究、终端任务:选 GLM-5.1。SWE-Bench Pro 第一和 CyberGym 第一均有实质意义,长时运行能力在自动化流水线中优势更明显。
  • 数学推理、科学问答、通用对话:GLM-5 和 GLM-5.1 能力相当,GLM-5 开源更早、社区资源更完整。
  • API 调用:两者定价一致,无切换成本。GLM-5.1 Coding Plan 订阅用户可在配置文件中直接更新模型名称启用。

数据来源:Z.ai 官方博客及 HuggingFace 模型卡(zai-org/GLM-5.1),发布于 2026 年 4 月 8 日。DataLearner 将持续跟进第三方独立评测结果。

智谱AI

GLM 5.1

智谱AI

Release
2026-03-27
Context length
200K
Parameters
754 (act 40)
最大输出
128,000 tokens
Model profile·Playground

Capability profile

Each axis is a category average, normalized to a 100-point radar.

View: Non-parallel mode average·4 dimensions
GLM 5.1

Relative edge: AI Agent - 信息收集 +10.3 / Relative gap: none clear

GLM-5

Relative edge: none clear / Relative gap: AI Agent - 信息收集 -10.3

Method: for each model and benchmark, the chart first averages all scores in the current mode scope instead of taking the best score, then averages those benchmark scores within each category. Only benchmarks with at least two selected models scored are included; missing values are not counted as zero.

Best overall

GLM 5.1 · 76.73

Best single

GLM 5.1 · AIME 2026 95.30

Modality coverage

GLM 5.1 · 1 modalities

Head to head

GLM 5.1
6
GLM-5
AheadTiedBehind

6

Benchmarks

6

Wins

0

Losses

+1.97

Average diff

Performance benchmarks

Compare benchmark results across thinking modes and tool usage.

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Thinking
Tool usage
Internet
Filter: Best Available·2 modes · 6 Benchmark
图表加载中...

Benchmark score table

Complete scores for each model/mode across selected benchmarks.

6 benchmarks with comparable scores. Each model shows its best score; mode label is displayed below.

BenchmarkGLM 5.1GLM-5
GPQA Diamond
综合评估
86.20Thinking Enabled
86.00Thinking Enabled
HLE
综合评估
52.30Thinking Enabled | Tools
50.40Thinking Enabled | Tools
BrowseComp
AI Agent - 信息收集
79.30Thinking Enabled | Tools
75.90Thinking Enabled | Tools
Terminal Bench 2.0
AI Agent - 工具使用
63.50Thinking Enabled | Tools
61.10Thinking Enabled | Tools
AIME 2026
数学推理
95.30Thinking Enabled
92.70Thinking Enabled
IMO-AnswerBench
数学推理
83.80Thinking Enabled
82.50Thinking Enabled

API price comparison

Side-by-side input/output token pricing

Detailed feature breakdown

Licensing, MoE architecture, and multi-modality support.

Features & specs
GLM 5.1智谱AI
GLM-5智谱AI
Core specsRelease
2026-03-272026-02-11
Context length
200K200K
Parameters
7547440
Active parameters
40400
Max output
128000131072
MoE
YesYes
LicenseCode Open Source
Closed SourceNot provided
Weights Open Source
Closed SourceClosed Source
Commercial use
免费商用授权免费商用授权
Modality supportText Input/Output
/
/
ResourcesPaper / report
GLM-5.1: Towards Long-Horizon TasksGLM-5: From Vibe Coding to Agentic Engineering
智谱AI

GLM-5

智谱AI

Release
2026-02-11
Context length
200K
Parameters
7,440 (act 400)
最大输出
131,072 tokens
Model profile·Playground