一句话结论:GLM-5.1 是一次方向明确的垂直升级——编程与 Agentic 能力出现实质性跨越,SWE-Bench Pro 跻身全球第一,但数学与通用推理基本原地踏步。选哪个,取决于你的核心场景。
两者是什么关系?
GLM-5.1 与 GLM-5 共享同一基座架构(MoE,754B 总参数,40B 激活参数),区别完全来自后训练阶段的专项优化。Z.ai 将 GLM-5.1 定位为「下一代旗舰 Agentic 工程模型」,核心改进集中在编程、工具调用和长链任务上,而非全面的能力迭代。
GLM-5.1 已于 2026 年 4 月 8 日以 MIT 协议开源,权重发布于 HuggingFace 和 ModelScope,支持 vLLM、SGLang、KTransformers 等主流推理框架本地部署。API 定价与 GLM-5 一致。
编程与 Agentic:全面领先
SWE-Bench Pro(复杂软件工程任务)是这次升级最具说服力的数字:GLM-5.1 得分 58.4,GLM-5 为 55.1,同时超过 Claude Opus 4.6(57.3)和 GPT-5.4(57.7),是当前公开结果中的最高分。
其余编程和 Agentic 基准的对比如下:
CyberGym 超过 20 分的差距最为突出,GLM-5.1 以 68.7 分在该项中排名第一(Claude Opus 4.6 为 66.6)。
数学与通用推理:基本持平
这是这次升级另一面值得注意的事实:GLM-5.1 在数学和科学推理上几乎没有增益,部分项目 GLM-5 反而略高:
这不是缺陷,而是资源分配的结果——Z.ai 的后训练投入集中在 Agentic 任务分布上。如果你的核心场景是数学竞赛题或科学问答,两个模型能力相当,GLM-5 在第三方评测覆盖上更充分。
核心设计逻辑:「长时运行」
GLM-5.1 最值得单独说明的设计目标,是解决以往模型在 Agentic 任务中「早早见顶」的问题:之前的模型(包括 GLM-5)倾向于先用熟悉策略快速取得初期进展,随后停滞,给更多时间也无济于事。
GLM-5.1 通过三个场景来验证这一能力:
场景一:向量数据库优化,600+ 轮迭代 任务是在 Rust 框架上实现一个高性能近似最近邻搜索数据库(SIFT-1M,Recall ≥ 95%,目标最大化 QPS)。单次 50 轮工具调用的最优解为 3,547 QPS(Claude Opus 4.6 保持的记录)。在不限轮次的外层优化循环中,GLM-5.1 在 600+ 次迭代、6,000+ 次工具调用后达到 21,500 QPS,约为单轮最优解的 6 倍。优化路径呈现出阶梯型特征:在同一策略内持续微调,再在关键节点发生结构性跃迁(IVF 聚类、f16 向量压缩、u8 粗排 + f16 精排两阶段流水线等),共经历 6 次此类结构性切换,均由模型在分析自身基准日志后自主发起。
场景二:GPU 内核优化,1,000+ 轮 KernelBench Level 3 对 50 个问题评估模型将 PyTorch 实现转化为更快 GPU 内核的能力(MobileNet、VGG、MiniGPT、Mamba 等完整架构)。GLM-5 较早进入增益平台期;GLM-5.1 达到 3.6 倍加速比,并在更长时间内持续改进。Claude Opus 4.6 仍是该项最强,最终达到 4.2 倍,且在测试结束时仍有提升空间。
场景三:8 小时构建 Linux 桌面环境 给定一句自然语言描述,不提供起始代码和设计稿,构建一个运行在浏览器中的 Linux 风格桌面应用。大多数模型会快速交付一个带静态任务栏和占位窗口的骨架后宣告完成。将 GLM-5.1 包裹在一个「执行→自评→继续」的简单循环中运行 8 小时后,最终结果包含文件浏览器、终端、文本编辑器、系统监视器、计算器和游戏,且各组件集成于统一 UI 风格中,而非独立拼凑。
怎么选
- 编程、Agentic 工作流、安全研究、终端任务:选 GLM-5.1。SWE-Bench Pro 第一和 CyberGym 第一均有实质意义,长时运行能力在自动化流水线中优势更明显。
- 数学推理、科学问答、通用对话:GLM-5 和 GLM-5.1 能力相当,GLM-5 开源更早、社区资源更完整。
- API 调用:两者定价一致,无切换成本。GLM-5.1 Coding Plan 订阅用户可在配置文件中直接更新模型名称启用。
数据来源:Z.ai 官方博客及 HuggingFace 模型卡(zai-org/GLM-5.1),发布于 2026 年 4 月 8 日。DataLearner 将持续跟进第三方独立评测结果。
