Zhipu AI重磅发布GLM-4.5系列:技术深度解析与多维度性能评测

标签:#GLM-4.5系列##MoE架构##开源大模型##混合推理# 时间:2025/07/29 11:06:25 作者:小木

7月28日,智谱AI(Zhipu AI)向开源社区投下了一枚重磅炸弹,正式发布了其最新的旗舰模型系列:GLM-4.5。该系列包含两个新成员——GLM-4.5和GLM-4.5-Air,两者均以开源权重形式提供。官方技术报告详细阐述了其设计理念、技术细节以及在多项基准测试中的表现。本次发布的核心目标是打造一个能够统一推理、代码和Agent智能体能力的模型,以应对日益复杂的AI应用需求。本文将深入解析这份官方报告,剖析其核心技术、性能表现,并探讨其在当前大模型竞争格局中的战略定位。

核心配图:

图:GLM-4.5系列在性能-规模权衡中的帕累托前沿分析

[TOC]

一份官方性能报告:GLM-4.5的定位与整体表现

在深入各项具体测试之前,首先需要明确GLM-4.5系列的基础信息和市场定位。智谱AI此次推出的两个模型在规模上有所区分:

  • GLM-4.5: 总参数量3550亿,激活参数量320亿。
  • GLM-4.5-Air: 总参数量1060亿,激活参数量120亿。

两者均采用混合专家(MoE)架构,旨在实现训练和推理的高效率。其核心设计理念是统一能力(unifying capabilities),试图解决当前市场上部分模型精于编码、部分精于推理,但缺乏全能型选手的痛点。

在智谱官方进行的12项基准测试中,涵盖了Agent、推理和代码三大领域,GLM-4.5在与OpenAI、Anthropic、Google等厂商的旗舰模型对比中,综合排名位列第三,而轻量版的GLM-4.5-Air位列第六

上方的帕累托前沿分析图直观地展示了这一点。该图以模型规模为横轴,性能为纵轴,位于左上方的模型意味着在同等规模下具有更高的性能效率。从图中可以看出,GLM-4.5和GLM-4.5-Air均处于效率边界线上,表明它们在其各自的参数规模下,实现了极具竞争力的性能表现。

Agent、推理与代码:三大核心能力的多维度基准测试解析

智谱AI的报告提供了详尽的基准测试数据,将其宣称的三大核心能力(Agent、推理、代码)进行了量化对比。

1. Agent能力:与顶级模型同场竞技

Agent能力是本次发布的重点。GLM-4.5提供了128k上下文长度和原生的函数调用(Function Calling)能力,这是构建复杂Agent应用的基础。

测试背景与结果:
评测主要在三个Agent任务基准上进行:τ-benchBFCL-v3(伯克利函数调用排行榜)和BrowseComp(网页浏览)。

Benchmark GLM-4.5 GLM-4.5-Air Claude 4 Sonnet Claude 4 Opus o4-mini-high Grok 4
TAU-bench 70.1 69.4 70.3 70.5 57.4 67.5
BFCL v3 (Full) 77.8 76.4 75.2 61.8 67.2 66.2
BrowseComp 26.4 21.3 14.7 18.8 28.3 32.6

分析:

  • 在函数调用和通用Agent任务(τ-benchBFCL-v3)上,GLM-4.5的表现与Claude 4 Sonnet几乎持平,显示出其在工具使用和任务规划方面的扎实基础。
  • 在更具挑战性的网页浏览任务BrowseComp中,GLM-4.5(26.4%)明显优于Claude-4-Opus(18.8%),但与o4-mini-high(28.3%)和Grok 4(32.6%)仍有差距。这表明在需要复杂推理和多轮工具交互的真实网络环境中,其能力虽强,但尚未达到顶尖水平。

2. 推理能力:深度与逻辑的考验

报告指出,在“思考模式”下,GLM-4.5系列能够处理复杂的数学、科学和逻辑问题。

测试背景与结果:
评测选取了MMLU Pro、AIME24、MATH等多个高难度推理基准。

Benchmark GLM-4.5 GLM-4.5-Air Claude 4 Opus Gemini 2.5 Pro Qwen3-235B Grok 4
MMLU Pro 84.6 81.4 87.3 86.2 84.5 86.6
AIME24 (Avg@32) 91.0 89.4 75.7 88.7 94.1 94.3
MATH 500 98.2 98.1 98.2 96.7 98.0 99.0
GPQA (Avg@8) 79.1 75.0 79.6 84.4 81.1 87.7

评测方法说明: AIME和GPQA基准测试采用了多次采样取平均值的方式(Avg@32, Avg@8)以减少结果的随机性。

分析:

  • GLM-4.5在各项推理基准上均表现出色,尤其是在数学竞赛级问题(AIME24)上,其91.0的得分超过了Claude 4 Opus和Gemini 2.5 Pro。
  • 在综合性知识(MMLU Pro)和研究生水平问题(GPQA)上,与业界最顶尖的模型(如Grok 4、Gemini 2.5 Pro)相比仍存在一定差距,但已稳居第一梯队。

3. 代码能力:Agentic Coding的实践

代码能力是衡量现代大模型价值的关键指标。GLM-4.5不仅支持从零构建项目,还能以Agent的方式解决现有代码库中的问题。

测试背景与结果:
主要评测基准为SWE-bench Verified(软件工程任务)和Terminal-Bench(终端操作)。

Benchmark GLM-4.5 GLM-4.5-Air Claude 4 Opus Claude 4 Sonnet Kimi K2
SWE-bench Verified 64.2 57.6 67.8 70.4 65.4
Terminal-Bench 37.5 30.0 43.2 35.5 25.0

此外,智谱还进行了一项基于Claude Code框架的52项编码任务的人工交互评测,结果显示:

  • 工具调用成功率: GLM-4.5达到 90.6%,超过了Claude-4-Sonnet (89.5%)、Kimi-K2 (86.2%) 和 Qwen3-Coder (77.1%),显示出其在Agentic Coding中与工具交互的可靠性。
  • 胜率对比: 对比Kimi K2的胜率为53.9%,对Qwen3-Coder的胜率高达80.8%,但与Claude-4-Sonnet相比仍有优化空间。

分析:
GLM-4.5的代码能力呈现出一种鲜明的特点:在需要Agent与工具链深度结合的场景下(如工具调用),其可靠性极高。但在纯粹的代码问题解决能力上(如SWE-bench),与专为代码优化的Claude 4 Sonnet相比,仍有差距。这与其“统一能力”的设计哲学相符——它是一个多面手,而非专科冠军。

技术揭秘:MoE架构、RL框架与能力融合的实现路径

优异的性能表现背后,是一系列明确的技术选型和创新。

1. 模型架构与预训练

  • MoE架构: 采用了更深而非更宽的设计。智谱团队发现,增加模型层数(高度)比增加隐藏层维度或专家数量(宽度)更有助于提升推理能力。
  • 注意力机制: 采用了分组查询注意力(GQA),并反直觉地将注意力头的数量增加了2.5倍。报告称,尽管这并未改善训练损失,但显著提升了在MMLU等推理基准上的表现。
  • 训练稳定与加速: 使用了Muon优化器和QK-Norm来稳定训练过程,并加入了MTP(多令牌预测)层以支持推理时的推测解码。
  • 数据策略: 预训练数据量巨大,包括15T tokens的通用语料和7T tokens的代码与推理语料,并通过特定领域数据集进行多阶段增强。

2. 高效RL框架slime与后训练
本次发布的一大亮点是智谱开源了其自研的强化学习(RL)框架slime。该框架为解决大规模模型,尤其是复杂Agent任务的RL训练瓶颈而设计。

  • 核心创新:

    • 灵活的混合架构: 支持同步和异步训练模式,通过解耦数据生成和模型训练,解决了Agent任务中环境交互耗时过长、导致GPU闲置的问题。
    • FP8加速: 在数据生成环节使用FP8混合精度进行推理,大幅提升吞吐量,同时在训练循环中保持BF16的稳定性。
  • 后训练流程:

    1. SFT: 首先在高质量的推理和合成的Agent场景数据上进行监督微调。
    2. 专业化RL: 针对推理和Agent任务分别进行RL训练,培养出“专家模型”。
    3. 专家蒸馏: 最后,通过蒸馏技术将这些专业化能力融合到最终的GLM-4.5模型中,实现能力的统一。

总结与分析:GLM-4.5的市场定位与潜在影响

综合官方报告的所有信息,我们可以对GLM-4.5系列做出如下分析:

  1. 战略定位清晰:开源社区的全能型旗舰
    GLM-4.5并非要追求在每一个单点上都超越所有对手,而是致力于成为一个能力均衡、没有明显短板的全能模型。其在Agent、推理、代码三大领域的强大综合实力,结合开源权重的策略,使其成为目前开源社区中对标GPT-4、Claude 3 Opus等顶级闭源模型的有力竞争者。

  2. 技术路径务实且具有前瞻性
    从“更深而非更宽”的MoE架构,到为解决实际痛点而自研并开源的slime框架,再到“SFT -> 专业RL -> 专家蒸馏”的能力融合路径,智谱展示了一条清晰且可行的技术路线。这不仅为GLM-4.5的性能提供了保障,也为整个AI社区贡献了宝贵的工程经验。

  3. Agent能力是核心竞争力
    虽然在某些基准上并非第一,但GLM-4.5在工具调用可靠性上的领先,以及官方提供的Artifacts生成、全栈开发等应用演示,都指向了一个明确的方向:它是一个为构建下一代AI Agent而生的基础模型。在行业趋势从聊天机器人向实用型Agent迁移的今天,这是一个极具价值的特性。

关于GLM 4.5更多的信息,包括开源地址参考DataLearnerAI模型信息卡地址:
https://www.datalearner.com/ai-models/pretrained-models/glm-4_5_moe-355b-a32b-0715
https://www.datalearner.com/ai-models/pretrained-models/glm-4_5_moe-106b-a12b-0715

总而言之,GLM-4.5系列的发布是开源大模型发展的一个重要里程碑。它不仅在性能上向闭源顶尖模型发起了有力冲击,更通过开源slime等举措,向社区展示了其技术自信和开放心态。对于开发者和企业而言,这意味着一个更强大、更可靠、更具性价比的开源选项已经出现。

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
相关博客