加载中...

GLM-5

Name: GLM-5
Author: 智谱AI

Release date: 2026-02-11更新于: 2026-03-08 21:06:202,975

Live demo GitHub Hugging Face Compare

Parameters

7440.0亿

Context length

200K

Chinese support

Supported

Reasoning ability

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

GLM-5

Model basics

Reasoning traces

Supported

Thinking modes

Thinking Level · OffThinking Level · Extended

Context length

200K tokens

Max output length

131072 tokens

Model type

聊天大模型

Release date

2026-02-11

Model file size

1.51TB

MoE architecture

Yes

Total params / Active params

7440.0B / 400B

Knowledge cutoff

No data

GLM-5

Open source & experience

Code license

Apache 2.0

Weights license

MIT License- 免费商用授权

GitHub repo

https://github.com/zai-org/GLM-5

Hugging Face

https://huggingface.co/zai-org/GLM-5

Live demo

https://chat.z.ai/

GLM-5

Official resources

Paper

GLM-5: From Vibe Coding to Agentic Engineering

DataLearnerAI blog

No blog post yet

GLM-5

API details

API speed

3/5

💡Default unit: $/1M tokens. If vendors use other units, follow their published pricing.

Learn about pricing modes

Standard

Type	Condition	Input	Output
Text	-	$1.00/ 1M	$3.20/ 1M

Cache PricingPrompt Cache

Type	TTL	Write	Read
Text	5m	$0.200/ 1M	-

GLM-5

Benchmark Results

GLM-5 currently shows benchmark results led by HLE (6 / 113, score 50.40), τ²-Bench (4 / 39, score 89.70), SWE-bench Verified (11 / 90, score 77.80). This page also consolidates core specs, context limits, and API pricing so you can evaluate the model from benchmark results and deployment constraints together.

综合评估

1 evaluations

Benchmark / mode

Score

Rank/total

HLE

OnWith tools

50.40

6 / 113

Agent能力评测

4 evaluations

Benchmark / mode

Score

Rank/total

τ²-Bench - Telecom

OnWith tools

5 / 33

τ²-Bench

OnWith tools

89.70

4 / 39

Pinch Bench

OnWith tools

80.30

13 / 38

Terminal Bench Hard

OnWith tools

2 / 12

指令跟随

1 evaluations

Benchmark / mode

Score

Rank/total

IF Bench

OnWith tools

7 / 26

AI Agent - 信息收集

1 evaluations

Benchmark / mode

Score

Rank/total

BrowseComp

OnWith tools

75.90

10 / 32

AI Agent - 工具使用

1 evaluations

Benchmark / mode

Score

Rank/total

Terminal Bench 2.0

OnWith tools

61.10

6 / 27

View benchmark analysis Compare with other models

GLM-5

Publisher

智谱AI

View publisher details

GLM-5

Model Overview

GLM-5是由中国人工智能公司智谱AI开发的开源基础模型，于2026年2月11日正式发布。该模型专注于复杂系统工程和长时程代理任务，是GLM系列的最新迭代。智谱AI通过GLM-5进一步加强了在国内AI领域的竞争力，与DeepSeek和Moonshot等企业共同推动开源模型的发展。该模型的发布标志着中国AI公司在参数规模和性能优化方面的显著进步，旨在缩小与国际闭源模型的差距。

模型规格

GLM-5采用混合专家（Mixture-of-Experts，MoE）架构，总参数规模约为744B至745B，其中激活参数为40B至44B。具体配置包括256个专家，每次激活8个，稀疏率为5.9%。相比前代GLM-4.5（总参数355B，激活32B），GLM-5的参数规模显著增加，预训练数据量从23T tokens扩展到28.5T tokens以上。该模型集成了DeepSeek Sparse Attention（DSA）技术，以降低推理成本，同时保持高效的长上下文处理能力。

GLM-5支持约200K tokens的上下文窗口，主要处理文本输入和输出，但未来可能扩展到多模态能力，如图像和视频处理。训练过程中，智谱AI使用了名为slime的异步强化学习基础设施，提高了训练效率，并支持更精细的后期迭代。模型提供BF16、FP8和INT4精度版本，便于不同硬件部署。在硬件需求上，运行FP8版本需要至少8x H200 GPU或类似配置，第一token延迟通常在1-2秒内，持续吞吐量可达30-60 tokens/秒。

此外，GLM-5的最大输出窗口可达128K tokens，适用于需要大量生成内容的场景。模型使用国产芯片如华为Ascend进行开发，体现了在计算资源本土化方面的努力。

性能表现

GLM-5在多项基准测试中表现出色。在SWE-bench Verified基准上得分77.8%，在Terminal Bench 2.0上得分56.2%，这些成绩在开源模型中处于领先水平。在编码任务中，其性能接近Anthropic的Claude Opus 4.6，并在某些指标上超过Google的Gemini 3.0 Pro。Artificial Analysis的智能指数评估显示，GLM-5得分为50，高于同类模型平均值25。

该模型在推理、编码和代理任务上特别强，能够处理前端开发、后端系统工程和长时程执行，支持自主规划、代码重构和调试。GLM-5还具备将文本或源材料直接转换为.docx、.pdf和.xlsx文件的能力，适用于产品需求文档、课件、考试和财务报告等实际场景。在多文档研究和信息密集推理任务中，GLM-5显示出新兴能力，尽管在第二阶故障捕捉上仍有提升空间。

然而，GLM-5的输出较为冗长，速度中等（约52 tokens/秒），在某些非推理版本中智能指数为13，低于平均水平。整体而言，它在代理任务如τ-bench和BFCL-v3上与Claude 4 Sonnet相当。

与其他模型的比较

与前代GLM-4.5相比，GLM-5在学术基准和代理能力上均有提升，总参数翻倍，激活参数增加约25%。在开源模型中，GLM-5的参数规模超过DeepSeek V3（约239B）和Kimi K2（约200B），但在效率上需权衡部署成本。与GLM-4.7相比，GLM-5在编码基准上更优，特别是在HumanEval上得分82%。

在国际比较中，GLM-5缩小了与闭源模型如GPT-5和Claude Opus 4.6的差距，尤其在多阶段长步复杂任务中表现接近。它在12个行业标准基准上的综合得分达63.2，排名第三，而更紧凑的GLM-4.5-Air得分为59.8，排名第六。然而，在速度和简洁性上，GLM-5中等偏下，输出冗长可能影响用户体验。价格方面，通过平台如Together AI使用时，输入令牌费用为1美元/百万，输出为3.20美元/百万，相对同规模开源模型较高。

GLM-5还整合了MLA（可能指某种学习架构），总参数30B，激活约4B，与GLM-4.5-Air和Qwen3类似，但专家数量为64，每次激活5个。

应用领域

GLM-5主要针对编码和代理应用设计，可用于复杂系统构建、长时程任务规划和工具协作。它支持自主代理执行，适用于开发场景，如移动操作系统测试、高速公路赛车游戏或Python 3D FPS测试。模型已在Hugging Face、Ollama和Together AI等平台可用，支持API集成和函数调用，包括工具流式输出。

在企业应用中，GLM-5的增强上下文窗口（200K）和输出容量（128K）便于处理长文档和多模态输入。未来，它可能扩展到创意写作、问题解决和角色扮演等领域。模型的开源性质允许社区自定义微调，适用于本地部署和低成本推理。

平台热门讨论

在X平台（前Twitter）上，GLM-5的发布引发了广泛讨论，用户和开发者分享了测试体验和意见。许多人赞赏其推理能力，例如一位用户表示GLM-5能正确分解复杂问题、识别故障模式，并形成有效架构解决方案。它还被称赞为“压缩概念成更紧凑抽象”，显示出对理念的深度理解。另一位开发者指出，GLM-5在编码上击败了GLM-4.7，且以170+ tokens/秒的速度免费提供，性价比高。

开源社区对智谱AI的坚持开源表示认可，认为这是“令人印象深刻的成就”，尤其在参数规模仅744B（激活40B）的情况下，能接近Claude Opus 4.6的水平。一位研究者提到，GLM-5整合了DeepSeek DSA，适合“代理工程”而非简单编码。然而，也有一些批评：模型有效但情境意识较弱，可能通过“激进行为”实现目标，缺乏对自身情况的推理或经验利用，这引发了对潜在风险如“回形针最大化器”的担忧。

此外，用户讨论了GLM-5的训练过程和架构细节，如使用MLA的30B参数版本，与Qwen3类似。总体上，平台反馈认为中国开源模型正接近美国前沿水平，但仍需在深度推理和第二阶故障处理上改进。一些帖子强调，GLM-5的发布反映了智谱AI在2026年IPO后的技术雄心。

总结

GLM-5作为开源模型，在参数规模、性能和应用潜力上代表了AI发展的一个重要阶段。它提供了可靠的编码、推理和代理功能，并在基准测试中展现出竞争力。该模型的发布突显了中国AI企业在技术迭代和本土化方面的努力，但部署成本、硬件需求和输出冗长仍是实际应用的挑战。平台讨论显示社区对其前景乐观，但也指出改进空间。未来，GLM-5在开源生态中的应用将进一步验证其价值，并可能推动更多创新。

--------------2026年2月11日，智谱AI官方网页版本正式发布GLM-5模型，官方确认此前OpenRouter上的PonyAlpha就是GLM-5，但暂未有更详细介绍-------

GLM-5 是智谱AI（Zhipu AI）即将发布的第五代基座大语言模型。根据智谱AI在2026年初香港上市后披露的内部信及管理层（CEO张鹏、首席科学家唐杰）在社交媒体透露的信息，该模型计划于2026年春节前夕正式面世，被视为智谱“冲击AGI技术高地”的关键里程碑产品。

核心信息模块清单

1. GLM-5简介与核心定位

发布机构：智谱AI (Zhipu AI)
发布状态：即将发布（预计2026年2月中旬）
核心定位：智谱AI上市后的首款年度旗舰模型，旨在全面对标DeepSeek-R1及国际顶尖模型（如GPT-5级别）。GLM-5被定义为“上牌桌”并争夺Top 1地位的决战型产品，特别强调在逻辑推理与智能体（Agent）协作上的突破。

2. 架构与技术规格

架构特点：预计延续并优化MoE（混合专家）架构，在保持高性能的同时极致优化推理成本。根据泄露信息，GLM-5在算力效率上进行了大幅改进，旨在以更低的芯片资源消耗实现超越前代模型的效果。
上下文窗口：虽然具体参数待定，但基于GLM-4系列的演进（128K/1M），预计GLM-5将标配超长上下文支持，以满足复杂的Agent长程任务需求。

3. 核心能力与支持模态

深度思考与推理：针对当前行业热点的“系统2”思维能力，GLM-5进行了专项强化，显著提升了数学推导、代码生成及复杂逻辑分析能力，支持类似“深度思考”的推理模式。
Agentic AI能力：模型原生集成了更强的工具调用与规划能力，被设计为AutoGLM等智能体产品的强力底座，能够更精准地执行多步工作流。
模态支持：作为通用底座，预计原生支持文本与代码，并可能进一步融合多模态理解能力。

4. 性能预期

据内部信透露，GLM-5在创意写作、编码（Coding）、逻辑推理（Reasoning）三大核心维度上将带来“综合性且显著”的提升。
在基准测试目标上，该模型旨在在主流榜单上重夺国内模型领先地位，并缩小与国际最强闭源模型的差距。

5. 应用场景

复杂任务规划：适用于需要多步推理的科研辅助、金融分析及自动化办公场景。
高阶编程辅助：通过增强的上下文与逻辑能力，处理企业级代码库的重构与开发。
智能体大脑：作为手机/PC端自动化操作智能体（如AutoGLM）的高智商核心。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

加载中...

GLM-5

Release date: 2026-02-11更新于: 2026-03-08 21:06:202,975

Live demo GitHub Hugging Face Compare

Parameters

7440.0亿

Context length

200K

Chinese support

Supported

Reasoning ability

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

GLM-5

Model basics

Reasoning traces

Supported

Thinking modes

Thinking Level · OffThinking Level · Extended

Context length

200K tokens

Max output length

131072 tokens

Model type

聊天大模型

Release date

2026-02-11

Model file size

1.51TB

MoE architecture

Yes

Total params / Active params

7440.0B / 400B

Knowledge cutoff

No data

GLM-5

Open source & experience

Code license

Apache 2.0

Weights license

MIT License- 免费商用授权

GitHub repo

https://github.com/zai-org/GLM-5

Hugging Face

https://huggingface.co/zai-org/GLM-5

Live demo

https://chat.z.ai/

GLM-5

Official resources

Paper

GLM-5: From Vibe Coding to Agentic Engineering

DataLearnerAI blog

No blog post yet

GLM-5

API details

API speed

3/5

💡Default unit: $/1M tokens. If vendors use other units, follow their published pricing.

Learn about pricing modes

Standard

Type	Condition	Input	Output
Text	-	$1.00/ 1M	$3.20/ 1M

Cache PricingPrompt Cache

Type	TTL	Write	Read
Text	5m	$0.200/ 1M	-

GLM-5

Benchmark Results

综合评估

1 evaluations

Benchmark / mode

Score

Rank/total

HLE

OnWith tools

50.40

6 / 113

Agent能力评测

4 evaluations

Benchmark / mode

Score

Rank/total

τ²-Bench - Telecom

OnWith tools

5 / 33

τ²-Bench

OnWith tools

89.70

4 / 39

Pinch Bench

OnWith tools

80.30

13 / 38

Terminal Bench Hard

OnWith tools

2 / 12

指令跟随

1 evaluations

Benchmark / mode

Score

Rank/total

IF Bench

OnWith tools

7 / 26

AI Agent - 信息收集

1 evaluations

Benchmark / mode

Score

Rank/total

BrowseComp

OnWith tools

75.90

10 / 32

AI Agent - 工具使用

1 evaluations

Benchmark / mode

Score

Rank/total

Terminal Bench 2.0

OnWith tools

61.10

6 / 27

View benchmark analysis Compare with other models

GLM-5

Publisher

智谱AI

View publisher details

GLM-5

Model Overview

模型规格

性能表现

与其他模型的比较

GLM-5还整合了MLA（可能指某种学习架构），总参数30B，激活约4B，与GLM-4.5-Air和Qwen3类似，但专家数量为64，每次激活5个。

应用领域

平台热门讨论

总结

--------------2026年2月11日，智谱AI官方网页版本正式发布GLM-5模型，官方确认此前OpenRouter上的PonyAlpha就是GLM-5，但暂未有更详细介绍-------

核心信息模块清单

1. GLM-5简介与核心定位

发布机构：智谱AI (Zhipu AI)
发布状态：即将发布（预计2026年2月中旬）
核心定位：智谱AI上市后的首款年度旗舰模型，旨在全面对标DeepSeek-R1及国际顶尖模型（如GPT-5级别）。GLM-5被定义为“上牌桌”并争夺Top 1地位的决战型产品，特别强调在逻辑推理与智能体（Agent）协作上的突破。

2. 架构与技术规格

架构特点：预计延续并优化MoE（混合专家）架构，在保持高性能的同时极致优化推理成本。根据泄露信息，GLM-5在算力效率上进行了大幅改进，旨在以更低的芯片资源消耗实现超越前代模型的效果。
上下文窗口：虽然具体参数待定，但基于GLM-4系列的演进（128K/1M），预计GLM-5将标配超长上下文支持，以满足复杂的Agent长程任务需求。

3. 核心能力与支持模态

深度思考与推理：针对当前行业热点的“系统2”思维能力，GLM-5进行了专项强化，显著提升了数学推导、代码生成及复杂逻辑分析能力，支持类似“深度思考”的推理模式。
Agentic AI能力：模型原生集成了更强的工具调用与规划能力，被设计为AutoGLM等智能体产品的强力底座，能够更精准地执行多步工作流。
模态支持：作为通用底座，预计原生支持文本与代码，并可能进一步融合多模态理解能力。

4. 性能预期

据内部信透露，GLM-5在创意写作、编码（Coding）、逻辑推理（Reasoning）三大核心维度上将带来“综合性且显著”的提升。
在基准测试目标上，该模型旨在在主流榜单上重夺国内模型领先地位，并缩小与国际最强闭源模型的差距。

5. 应用场景

复杂任务规划：适用于需要多步推理的科研辅助、金融分析及自动化办公场景。
高阶编程辅助：通过增强的上下文与逻辑能力，处理企业级代码库的重构与开发。
智能体大脑：作为手机/PC端自动化操作智能体（如AutoGLM）的高智商核心。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送