加载中...
加载中...
Follow DataLearner WeChat for the latest AI updates

7月28日,智谱AI(Zhipu AI)向开源社区投下了一枚重磅炸弹,正式发布了其最新的旗舰模型系列:GLM-4.5。该系列包含两个新成员——GLM-4.5和GLM-4.5-Air,两者均以开源权重形式提供。官方技术报告详细阐述了其设计理念、技术细节以及在多项基准测试中的表现。本次发布的核心目标是打造一个能够统一推理、代码和Agent智能体能力的模型,以应对日益复杂的AI应用需求。本文将深入解析这份官方报告,剖析其核心技术、性能表现,并探讨其在当前大模型竞争格局中的战略定位。
核心配图:
图:GLM-4.5系列在性能-规模权衡中的帕累托前沿分析
`
在深入各项具体测试之前,首先需要明确GLM-4.5系列的基础信息和市场定位。智谱AI此次推出的两个模型在规模上有所区分:
两者均采用混合专家(MoE)架构,旨在实现训练和推理的高效率。其核心设计理念是统一能力(unifying capabilities),试图解决当前市场上部分模型精于编码、部分精于推理,但缺乏全能型选手的痛点。
在智谱官方进行的12项基准测试中,涵盖了Agent、推理和代码三大领域,GLM-4.5在与OpenAI、Anthropic、Google等厂商的旗舰模型对比中,综合排名位列第三,而轻量版的GLM-4.5-Air位列第六。
上方的帕累托前沿分析图直观地展示了这一点。该图以模型规模为横轴,性能为纵轴,位于左上方的模型意味着在同等规模下具有更高的性能效率。从图中可以看出,GLM-4.5和GLM-4.5-Air均处于效率边界线上,表明它们在其各自的参数规模下,实现了极具竞争力的性能表现。
智谱AI的报告提供了详尽的基准测试数据,将其宣称的三大核心能力(Agent、推理、代码)进行了量化对比。
Agent能力是本次发布的重点。GLM-4.5提供了128k上下文长度和原生的函数调用(Function Calling)能力,这是构建复杂Agent应用的基础。
测试背景与结果:
评测主要在三个Agent任务基准上进行:τ-bench、BFCL-v3(伯克利函数调用排行榜)和BrowseComp(网页浏览)。
分析:
τ-bench和BFCL-v3)上,GLM-4.5的表现与Claude 4 Sonnet几乎持平,显示出其在工具使用和任务规划方面的扎实基础。BrowseComp中,GLM-4.5(26.4%)明显优于Claude-4-Opus(18.8%),但与o4-mini-high(28.3%)和Grok 4(32.6%)仍有差距。这表明在需要复杂推理和多轮工具交互的真实网络环境中,其能力虽强,但尚未达到顶尖水平。报告指出,在“思考模式”下,GLM-4.5系列能够处理复杂的数学、科学和逻辑问题。
测试背景与结果: 评测选取了MMLU Pro、AIME24、MATH等多个高难度推理基准。
评测方法说明: AIME和GPQA基准测试采用了多次采样取平均值的方式(Avg@32, Avg@8)以减少结果的随机性。
分析:
代码能力是衡量现代大模型价值的关键指标。GLM-4.5不仅支持从零构建项目,还能以Agent的方式解决现有代码库中的问题。
测试背景与结果:
主要评测基准为SWE-bench Verified(软件工程任务)和Terminal-Bench(终端操作)。
此外,智谱还进行了一项基于Claude Code框架的52项编码任务的人工交互评测,结果显示:
分析: GLM-4.5的代码能力呈现出一种鲜明的特点:在需要Agent与工具链深度结合的场景下(如工具调用),其可靠性极高。但在纯粹的代码问题解决能力上(如SWE-bench),与专为代码优化的Claude 4 Sonnet相比,仍有差距。这与其“统一能力”的设计哲学相符——它是一个多面手,而非专科冠军。
优异的性能表现背后,是一系列明确的技术选型和创新。
1. 模型架构与预训练
2. 高效RL框架slime与后训练
本次发布的一大亮点是智谱开源了其自研的强化学习(RL)框架slime。该框架为解决大规模模型,尤其是复杂Agent任务的RL训练瓶颈而设计。
核心创新:
后训练流程:
综合官方报告的所有信息,我们可以对GLM-4.5系列做出如下分析:
战略定位清晰:开源社区的全能型旗舰 GLM-4.5并非要追求在每一个单点上都超越所有对手,而是致力于成为一个能力均衡、没有明显短板的全能模型。其在Agent、推理、代码三大领域的强大综合实力,结合开源权重的策略,使其成为目前开源社区中对标GPT-4、Claude 3 Opus等顶级闭源模型的有力竞争者。
技术路径务实且具有前瞻性
从“更深而非更宽”的MoE架构,到为解决实际痛点而自研并开源的slime框架,再到“SFT -> 专业RL -> 专家蒸馏”的能力融合路径,智谱展示了一条清晰且可行的技术路线。这不仅为GLM-4.5的性能提供了保障,也为整个AI社区贡献了宝贵的工程经验。
Agent能力是核心竞争力 虽然在某些基准上并非第一,但GLM-4.5在工具调用可靠性上的领先,以及官方提供的Artifacts生成、全栈开发等应用演示,都指向了一个明确的方向:它是一个为构建下一代AI Agent而生的基础模型。在行业趋势从聊天机器人向实用型Agent迁移的今天,这是一个极具价值的特性。
关于GLM 4.5更多的信息,包括开源地址参考DataLearnerAI模型信息卡地址: https://www.datalearner.com/ai-models/pretrained-models/glm-4_5_moe-355b-a32b-0715 https://www.datalearner.com/ai-models/pretrained-models/glm-4_5_moe-106b-a12b-0715
总而言之,GLM-4.5系列的发布是开源大模型发展的一个重要里程碑。它不仅在性能上向闭源顶尖模型发起了有力冲击,更通过开源slime等举措,向社区展示了其技术自信和开放心态。对于开发者和企业而言,这意味着一个更强大、更可靠、更具性价比的开源选项已经出现。