See key specs and per-benchmark scores for each model/mode. Scroll horizontally for all columns. 当前对比 2 个模型的评测数据与核心参数。
一句话结论:GLM-5.1 是一次方向明确的垂直升级——编程与 Agentic 能力出现实质性跨越,SWE-Bench Pro 跻身全球第一,但数学与通用推理基本原地踏步。选哪个,取决于你的核心场景。
GLM-5.1 与 GLM-5 共享同一基座架构(MoE,754B 总参数,40B 激活参数),区别完全来自后训练阶段的专项优化。Z.ai 将 GLM-5.1 定位为「下一代旗舰 Agentic 工程模型」,核心改进集中在编程、工具调用和长链任务上,而非全面的能力迭代。
GLM-5.1 已于 2026 年 4 月 8 日以 MIT 协议开源,权重发布于 HuggingFace 和 ModelScope,支持 vLLM、SGLang、KTransformers 等主流推理框架本地部署。API 定价与 GLM-5 一致。
SWE-Bench Pro(复杂软件工程任务)是这次升级最具说服力的数字:GLM-5.1 得分 58.4,GLM-5 为 55.1,同时超过 Claude Opus 4.6(57.3)和 GPT-5.4(57.7),是当前公开结果中的最高分。
其余编程和 Agentic 基准的对比如下:
CyberGym 超过 20 分的差距最为突出,GLM-5.1 以 68.7 分在该项中排名第一(Claude Opus 4.6 为 66.6)。
这是这次升级另一面值得注意的事实:GLM-5.1 在数学和科学推理上几乎没有增益,部分项目 GLM-5 反而略高:
这不是缺陷,而是资源分配的结果——Z.ai 的后训练投入集中在 Agentic 任务分布上。如果你的核心场景是数学竞赛题或科学问答,两个模型能力相当,GLM-5 在第三方评测覆盖上更充分。
GLM-5.1 最值得单独说明的设计目标,是解决以往模型在 Agentic 任务中「早早见顶」的问题:之前的模型(包括 GLM-5)倾向于先用熟悉策略快速取得初期进展,随后停滞,给更多时间也无济于事。
GLM-5.1 通过三个场景来验证这一能力:
场景一:向量数据库优化,600+ 轮迭代 任务是在 Rust 框架上实现一个高性能近似最近邻搜索数据库(SIFT-1M,Recall ≥ 95%,目标最大化 QPS)。单次 50 轮工具调用的最优解为 3,547 QPS(Claude Opus 4.6 保持的记录)。在不限轮次的外层优化循环中,GLM-5.1 在 600+ 次迭代、6,000+ 次工具调用后达到 21,500 QPS,约为单轮最优解的 6 倍。优化路径呈现出阶梯型特征:在同一策略内持续微调,再在关键节点发生结构性跃迁(IVF 聚类、f16 向量压缩、u8 粗排 + f16 精排两阶段流水线等),共经历 6 次此类结构性切换,均由模型在分析自身基准日志后自主发起。
场景二:GPU 内核优化,1,000+ 轮 KernelBench Level 3 对 50 个问题评估模型将 PyTorch 实现转化为更快 GPU 内核的能力(MobileNet、VGG、MiniGPT、Mamba 等完整架构)。GLM-5 较早进入增益平台期;GLM-5.1 达到 3.6 倍加速比,并在更长时间内持续改进。Claude Opus 4.6 仍是该项最强,最终达到 4.2 倍,且在测试结束时仍有提升空间。
场景三:8 小时构建 Linux 桌面环境 给定一句自然语言描述,不提供起始代码和设计稿,构建一个运行在浏览器中的 Linux 风格桌面应用。大多数模型会快速交付一个带静态任务栏和占位窗口的骨架后宣告完成。将 GLM-5.1 包裹在一个「执行→自评→继续」的简单循环中运行 8 小时后,最终结果包含文件浏览器、终端、文本编辑器、系统监视器、计算器和游戏,且各组件集成于统一 UI 风格中,而非独立拼凑。
数据来源:Z.ai 官方博客及 HuggingFace 模型卡(zai-org/GLM-5.1),发布于 2026 年 4 月 8 日。DataLearner 将持续跟进第三方独立评测结果。
GLM 5.1
GLM-5
Compare benchmark results across thinking modes and tool usage.
Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology
Best Overall
—
Best Single
—
Thinking Mode (Default)
GLM 5.1 · 1 Modality support
Higher is usually better; “—” means no score.
Complete scores for each model/mode across selected benchmarks.
Feature compare
Licensing, MoE architecture, and multi-modality support.
| Features & specs | GL GLM 5.1智谱AI | GL GLM-5智谱AI |
|---|---|---|
Model snapshots | ||
Organization | 智谱AI | 智谱AI |
模型全名 | GLM 5.1 | GLM-5 |
模型简介 | Not provided | Not provided |
模型类型 | 推理大模型 | 聊天大模型 |
模型代号 | glm-5-1 | glm-5 |
Release | 2026-03-27 | 2026-02-11 |
MoE | Yes | Yes |
规格与性能 | ||
Context length | 200K | 200K |
Parameters | 754 | 7440 |
激活参数量 | 40 | 400 |
模型规模 | 65b | 100b |
模型大小 | 1.51TB | 1.51TB |
推理速度 | ||
推理等级 | ||
最大输出 | 128000 | 131072 |
Supported modes | No mode data | No mode data |
开源与许可 | ||
Code Open Source | Closed Source | Not provided |
Weights Open Source | Closed Source | Closed Source |
Commercial use | 免费商用授权 | 免费商用授权 |
Modality support | ||
Text Input/Output | / | / |
Image Input/Output | Not provided | Not provided |
Audio Input/Output | Not provided | Not provided |
Video Input/Output | Not provided | Not provided |
Embedding Input/Output | Not provided | Not provided |
API 接口详情 | ||
Text 价格 | Input: $1.4 / 1M tokensOutput: $4.4 / 1M tokensCache: $0.26 / 1M tokens | Input: $1 / 1M tokensOutput: $3.2 / 1M tokensCache: $0.2 / 1M tokens |
Image API pricing | Not provided | Not provided |
Audio API pricing | Not provided | Not provided |
Video API pricing | Not provided | Not provided |
Embedding API pricing | Not provided | Not provided |
Resources | ||
GitHub | Repo | Repo |
Hugging Face | Model Page | Model Page |
Official Page | Not provided | Not provided |
Guides | Not provided | Not provided |
Papers | GLM-5.1: Towards Long-Horizon Tasks | GLM-5: From Vibe Coding to Agentic Engineering |
DataLearnerAI | Not provided | Not provided |
API pricing
Side-by-side input/output token pricing