自动展示选中模型的核心信息与各评测得分,可左右滑动查看完整表格。 当前对比 2 个模型的评测数据与核心参数。
一句话结论:GLM-5.1 是一次方向明确的垂直升级——编程与 Agentic 能力出现实质性跨越,SWE-Bench Pro 跻身全球第一,但数学与通用推理基本原地踏步。选哪个,取决于你的核心场景。
GLM-5.1 与 GLM-5 共享同一基座架构(MoE,754B 总参数,40B 激活参数),区别完全来自后训练阶段的专项优化。Z.ai 将 GLM-5.1 定位为「下一代旗舰 Agentic 工程模型」,核心改进集中在编程、工具调用和长链任务上,而非全面的能力迭代。
GLM-5.1 已于 2026 年 4 月 8 日以 MIT 协议开源,权重发布于 HuggingFace 和 ModelScope,支持 vLLM、SGLang、KTransformers 等主流推理框架本地部署。API 定价与 GLM-5 一致。
SWE-Bench Pro(复杂软件工程任务)是这次升级最具说服力的数字:GLM-5.1 得分 58.4,GLM-5 为 55.1,同时超过 Claude Opus 4.6(57.3)和 GPT-5.4(57.7),是当前公开结果中的最高分。
其余编程和 Agentic 基准的对比如下:
CyberGym 超过 20 分的差距最为突出,GLM-5.1 以 68.7 分在该项中排名第一(Claude Opus 4.6 为 66.6)。
这是这次升级另一面值得注意的事实:GLM-5.1 在数学和科学推理上几乎没有增益,部分项目 GLM-5 反而略高:
这不是缺陷,而是资源分配的结果——Z.ai 的后训练投入集中在 Agentic 任务分布上。如果你的核心场景是数学竞赛题或科学问答,两个模型能力相当,GLM-5 在第三方评测覆盖上更充分。
GLM-5.1 最值得单独说明的设计目标,是解决以往模型在 Agentic 任务中「早早见顶」的问题:之前的模型(包括 GLM-5)倾向于先用熟悉策略快速取得初期进展,随后停滞,给更多时间也无济于事。
GLM-5.1 通过三个场景来验证这一能力:
场景一:向量数据库优化,600+ 轮迭代 任务是在 Rust 框架上实现一个高性能近似最近邻搜索数据库(SIFT-1M,Recall ≥ 95%,目标最大化 QPS)。单次 50 轮工具调用的最优解为 3,547 QPS(Claude Opus 4.6 保持的记录)。在不限轮次的外层优化循环中,GLM-5.1 在 600+ 次迭代、6,000+ 次工具调用后达到 21,500 QPS,约为单轮最优解的 6 倍。优化路径呈现出阶梯型特征:在同一策略内持续微调,再在关键节点发生结构性跃迁(IVF 聚类、f16 向量压缩、u8 粗排 + f16 精排两阶段流水线等),共经历 6 次此类结构性切换,均由模型在分析自身基准日志后自主发起。
场景二:GPU 内核优化,1,000+ 轮 KernelBench Level 3 对 50 个问题评估模型将 PyTorch 实现转化为更快 GPU 内核的能力(MobileNet、VGG、MiniGPT、Mamba 等完整架构)。GLM-5 较早进入增益平台期;GLM-5.1 达到 3.6 倍加速比,并在更长时间内持续改进。Claude Opus 4.6 仍是该项最强,最终达到 4.2 倍,且在测试结束时仍有提升空间。
场景三:8 小时构建 Linux 桌面环境 给定一句自然语言描述,不提供起始代码和设计稿,构建一个运行在浏览器中的 Linux 风格桌面应用。大多数模型会快速交付一个带静态任务栏和占位窗口的骨架后宣告完成。将 GLM-5.1 包裹在一个「执行→自评→继续」的简单循环中运行 8 小时后,最终结果包含文件浏览器、终端、文本编辑器、系统监视器、计算器和游戏,且各组件集成于统一 UI 风格中,而非独立拼凑。
数据来源:Z.ai 官方博客及 HuggingFace 模型卡(zai-org/GLM-5.1),发布于 2026 年 4 月 8 日。DataLearner 将持续跟进第三方独立评测结果。
Best Overall
—
Best Single
—
Thinking 模式(默认)
GLM 5.1 · 1 模态支持
模型数据收集自官网、Artificial Analysis等页面
完整列出各模型/模式的评测得分,便于横向比较。
其他能力
是否 MoE、商业授权、模态支持等附加能力对比。
| 功能与规格 | GL GLM 5.1智谱AI | GL GLM-5智谱AI |
|---|---|---|
模型信息卡片 | ||
开发机构 | 智谱AI | 智谱AI |
模型全名 | GLM 5.1 | GLM-5 |
模型简介 | 未提供 | 未提供 |
模型类型 | 推理大模型 | 聊天大模型 |
模型代号 | glm-5-1 | glm-5 |
发布时间 | 2026-03-27 | 2026-02-11 |
MoE 架构 | 支持 | 支持 |
规格与性能 | ||
上下文 | 200K | 200K |
参数量 | 754 | 7440 |
激活参数量 | 40 | 400 |
模型规模 | 65b | 100b |
模型大小 | 1.51TB | 1.51TB |
推理速度 | ||
推理等级 | ||
最大输出 | 128000 | 131072 |
支持模式 | 暂无模式数据 | 暂无模式数据 |
开源与许可 | ||
代码开源 | 未开源 | 未提供 |
权重开源 | 未开源 | 未开源 |
商业授权 | 免费商用授权 | 免费商用授权 |
模态支持 | ||
文本 输入/输出 | / | / |
图片 输入/输出 | 未提供 | 未提供 |
音频 输入/输出 | 未提供 | 未提供 |
视频 输入/输出 | 未提供 | 未提供 |
Embedding 输入/输出 | 未提供 | 未提供 |
API 接口详情 | ||
文本 价格 | 输入: $1.4 / 1M tokens输出: $4.4 / 1M tokensCache: $0.26 / 1M tokens | 输入: $1 / 1M tokens输出: $3.2 / 1M tokensCache: $0.2 / 1M tokens |
图片 API 价格 | 未提供 | 未提供 |
音频 API 价格 | 未提供 | 未提供 |
视频 API 价格 | 未提供 | 未提供 |
Embedding API 价格 | 未提供 | 未提供 |
资源与链接 | ||
GitHub | 仓库 | 仓库 |
Hugging Face | 模型页 | 模型页 |
官方页面 | 未提供 | 未提供 |
实用指南 | 未提供 | 未提供 |
论文/报告 | GLM-5.1: Towards Long-Horizon Tasks | GLM-5: From Vibe Coding to Agentic Engineering |
DataLearnerAI | 未提供 | 未提供 |
API 价格
输入输出 token 价格并排展示