GL

GLM 5.1

推理大模型GLMGLM-5

GLM 5.1

发布时间: 2026-03-27更新于: 2026-06-15 07:18:19.88410,397
模型参数
754亿
上下文长度
200K
中文支持
支持
推理能力

GLM 5.1 是由 智谱AI 发布的 AI 模型,发布时间为 2026-03-27,定位为 推理大模型,参数规模约为 754亿,上下文长度为 200K,模型文件大小约 1.51TB,采用 MIT License 许可,在 AIME 2026 上取得 95.30 分。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

GLM 5.1

模型基本信息

推理过程
支持
思考模式
思考模式 (默认)常规模式
上下文长度
200K tokens
最大输出长度
125K tokens
模型类型
推理大模型
输入/输出模态
文本 → 文本
发布时间
2026-03-27
模型文件大小
1.51TB
MoE架构
总参数 / 激活参数
754亿 / 40亿
知识截止
暂无数据
GLM 5.1

开源和体验地址

代码开源状态
预训练权重开源
MIT License- 免费商用授权
GLM 5.1

官方介绍与博客

DataLearnerAI博客
暂无介绍博客
GLM 5.1

API接口信息

接口速度
3/5
💡默认单位:$/100万 tokens。若计费单位不同,则以供应商公开的原始标注为准。
标准模式
类型适用条件输入输出
文本-$1.40/ 1M$4.40/ 1M
缓存定价Prompt缓存
类型有效期写入读取
文本5m$0.260/ 1M$4.40/ 1M
GLM 5.1

评测结果

GLM 5.1 当前已收录的代表性评测结果包括 HLE(13 / 159,得分 52.30)、AIME 2026(3 / 15,得分 95.30)、SWE-Bench Pro - Public(10 / 44,得分 58.40)。 本页还汇总了参数规模、上下文长度与 API 价格,便于结合评测结果与部署约束一起判断模型适配度。

思考模式
工具使用
联网能力

综合评估

共 4 项评测
评测名称 / 模式
得分
排名/总数
GPQA Diamond
思考模式
86.20
43 / 179
LiveBench
常规模式
70.18
37 / 115
HLE
思考模式
31
71 / 159
HLE
思考模式工具
52.30
13 / 159

编程与软件工程

共 1 项评测
评测名称 / 模式
得分
排名/总数
SWE-Bench Pro - Public
思考模式工具
58.40
10 / 44

AI Agent - 信息收集

共 1 项评测
评测名称 / 模式
得分
排名/总数
BrowseComp
思考模式工具联网
79.30
13 / 45

AI Agent - 工具使用

共 4 项评测
评测名称 / 模式
得分
排名/总数
MCP-Atlas
常规模式工具
75.60
8 / 23
Terminal Bench 2.0
思考模式工具
63.50
13 / 46
58.70
13 / 15
Tool Decathlon
思考模式工具
40.70
3 / 7

数学推理

共 2 项评测
评测名称 / 模式
得分
排名/总数
AIME 2026
思考模式
95.30
3 / 15
IMO-AnswerBench
思考模式
83.80
11 / 20

和其他模型对比

GLM 5.1

发布机构

GLM 5.1

模型解读

2026 年 4 月 8 日,智谱 AI 正式开源 GLM-5.1,距离其前代模型 GLM-5 发布仅约两个月。但从定位上看,5.1 并不是常规的小版本补丁——它代表着智谱对「大模型能做什么」这个问题的一次重新回答。

GLM-5 的核心叙事是 Agentic Engineering(智能体工程),即让模型能够完成比单轮对话更复杂的软件工程任务。GLM-5.1 在此基础上进一步聚焦,提出了 Long Horizon Task(长程任务)的概念,并将「模型能持续工作多久」作为新的能力衡量尺度。

这个叙事转变值得仔细理解:从「能写出好代码」到「能独立工作数小时并交付完整成果」,这是两个量级的差距,不仅要求模型推理能力强,还要求其在上千步执行链路中保持目标一致性、主动纠错、自主切换策略。


二、技术规格:一个极度不对称的 MoE

GLM-5.1 的参数规格延续了 GLM-5 的路线:754B 总参数、40B 激活参数,是一个高度稀疏的 MoE(混合专家)架构。这个「不对称比」(总参数/激活参数 ≈ 18:1)意味着:

  • 推理成本接近 40B 密集模型,而非 750B 级别,具备实际部署可行性;
  • 模型容量接近 700B+ 密集模型,知识存储量远超同等推理成本的模型;
  • 但 MoE 架构天然存在路由稳定性挑战,尤其在超长上下文任务中,专家路由的漂移可能导致输出质量不一致。

上下文窗口为 200K tokens,最大输出长度 128K tokens,这对于长程工程任务是必要条件,但 200K 并非该量级模型中的领先水平(部分模型已达 1M+)。

训练层面,智谱沿用了其自研的 Slime 异步强化学习框架,该框架专为长链条推理任务设计,支持更细粒度的后训练迭代,是 GLM-5 系列在 Agent 能力上实现快速跃升的关键基础设施。


三、评测解读:成绩单背后的真实含义

数学推理:AIME 2026 全球第一(95.3 分)

这是 GLM-5.1 目前最亮眼的单项成绩,在收录的 11 个模型中排名第一。AIME 是美国数学邀请赛题库,对纯数学推理能力要求极高。

值得注意的是:这一成绩是在开启思维(Thinking)模式下取得的,且 AIME 题库样本数量有限,排行榜尚在早期(仅 11 个模型)。在 IMO-AnswerBench 上,GLM-5.1 得分 83.8,排名第 4/8,更接近真实数学能力的中高水平,而非绝对第一。两项成绩结合来看,GLM-5.1 的数学推理能力已处于顶尖开源模型行列,但「全球最强」的说法需要更大样本的基准加以验证。

软件工程:SWE-Bench Pro 全球第二(58.4 分)

SWE-Bench Pro 要求模型在真实 GitHub 仓库中定位并修复高难度工程 Bug,是目前最接近真实开发工作的编程评测之一。GLM-5.1 以 58.4 分排名第 2/24,官方宣称在该基准上超越 Claude Opus 4.6 和 GPT-5.4,在开源模型中取得第一。

这一成绩的含义是实质性的:SWE-Bench Pro 不可以靠记忆题库刷分,它考验的是模型真正的工程问题定位与修复能力。三项代码综合基准(SWE-Bench Pro + Terminal-Bench 2.0 + NL2Repo)平均分达到全球第三、开源第一,说明 GLM-5.1 的编程能力已构成系统性优势,而非某一单项的偶然超越。

Agent 能力:多项进入全球前六

评测基准得分全球排名

BrowseComp(联网信息检索)79.36 / 35

Terminal Bench 2.063.56 / 31

Tool Decathlon(工具综合)40.72 / 5

HLE(含工具)52.36 / 128

BrowseComp 和 Terminal Bench 的前六名次说明 GLM-5.1 在实际 Agent 场景中有真实竞争力。但 Tool Decathlon 目前仅 5 个参与模型,参考价值有限,不宜过度解读。

综合推理:GPQA Diamond 86.2 分(第 31 / 166)

这是 GLM-5.1 相对较弱的一环。在收录 166 个模型的榜单中排名第 31,说明其综合科学推理能力并未达到同等工程能力的水平。对于以工程和代码为核心定位的模型,这一取舍在预期之内。


四、「8 小时持续工作」能力:概念还是现实?

智谱官方将「8 小时持续工作」作为 GLM-5.1 的核心卖点,并配合 Demo 展示了模型在 8 小时内从零构建完整 Linux 桌面系统(执行 1200+ 步)、自主完成 655 轮迭代使向量数据库吞吐提升 6.9 倍等案例。

这些 Demo 的意义在于:模型能够形成「实验—分析—优化」的自主闭环,而不只是一次性生成代码等待人工验证。在 KernelBench Level 3 上,GLM-5.1 完成千轮工具调用后实现 3.6 倍几何平均加速比,远高于 torch.compile max-autotune 模式的 1.49 倍,这是有量化依据的性能提升。

需要保持理性的是:8 小时持续工作的能力在官方 Demo 之外的真实工况中尚未经过充分独立验证。社区用户反馈也指出,在超长上下文积累到一定程度后,模型存在幻觉爆炸风险,且有将大量代码塞入单一文件的倾向,会进一步加速后续的上下文质量下降。这些是当前 MoE 长程推理模型的普遍局限,并非 GLM-5.1 独有问题。


五、开源与定价:一个有趣的矛盾信号

GLM-5.1 采用 MIT License 完全开源,权重可免费商用,这对企业私有化部署、二次微调具有重要价值。与此同时,智谱在发布时再度提价 10%,API 标准定价为:

  • 输入:$1.40 / 1M tokens
  • 输出:$4.40 / 1M tokens

这个定价策略本身就是一个信号:智谱正在用开源建立开发者生态,用提价重塑其商业模式。一年前国产大模型还在打价格战,今天 GLM-5.1 的 API 价格已逼近 Claude Sonnet 4.6 的水平。这标志着中国头部 AI 厂商在高端推理模型领域的竞争策略,正在从「低价争量」转向「质价对齐」。

对于使用者而言,选择路径清晰:有 GPU 资源的企业和研究者可以自行部署开源权重,敏感数据不出域;云端 API 用户则按需付费,以 $1.40/$4.40 的价格换取推理基础设施。


六、局限性与尚待验证的问题

以下是目前有据可查的客观局限,使用者在评估时应予以考量:

技术层面:

  • 超长上下文(尤其是多轮工程任务积累后)存在幻觉风险,社区建议遇到连续两轮无法修复的问题时重开上下文
  • 架构设计能力分布不均匀,在未额外提示的情况下倾向于将代码集中在单一文件
  • 作为推理模型,中等复杂请求的响应延迟通常在 30–60 秒,高峰期(北京时间下午 2–6 点)有限流

评测层面:

  • 多数顶尖成绩来自开启 Thinking 模式 + 使用工具的条件,与日常轻量使用场景存在差距
  • 部分榜单(如 Tool Decathlon)参与模型数量少,排名参考价值有限
  • GPQA Diamond 排名第 31,说明通用科学推理并非强项

定位层面:

  • GLM-5.1 明确对 Agentic Coding 场景(Claude Code、OpenClaw 类工具链)做了针对性优化,在纯文本生成、创意写作等领域的优势不如编程场景显著

七、适用场景与选型建议

最适合 GLM-5.1 的场景:

  • 长程软件工程任务:多阶段代码生成、大型项目重构、跨文件系统级调试
  • 自主 Agent 工作流:需要模型主动运行测试、定位瓶颈、迭代优化的场景
  • 性能优化类任务:模型在数值计算、机器学习 Kernel 优化上有实测数据支撑
  • 需要私有化部署的企业:MIT 协议使其成为高参数开源模型中商用限制最少的选项之一

可能不是最优选的场景:

  • 高频轻量对话或简单 QA,推理延迟和成本都偏高
  • 对通用科学推理(物理、化学、生物)要求较高的学术场景
  • 对响应速度极度敏感的实时应用

八、结语:开源模型的边界正在重写

GLM-5.1 最重要的意义,不只是评测分数,而是它代表的一个趋势确认:开源模型在专业工程能力上已经能够与全球顶尖闭源模型正面竞争

这件事在两年前几乎是不可想象的。当时的开源模型最好的结果,也不过是「接近 GPT-3.5」。今天,GLM-5.1 在 SWE-Bench Pro 上声称超越 Claude Opus 4.6,这一成绩即便存在测试条件的差异,也已说明两者处于同一竞争维度。

当然,评测和真实工程之间永远存在距离。GLM-5.1 是否能在开发者社区大规模落地、是否能经受住多样化真实任务的考验,仍需要时间验证。但方向已经清晰:大模型的战场,正在从「聊天」迁移到「做事」,而开源模型已经买到了入场券。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码