GLM-4.5-106B-A12B是智谱AI开源的MoE架构的大模型,总参数1060亿,每次推理激活120亿参数。
在官方的帕累托前沿分析中,GLM-4.5-Air被定位为同等规模下性能最优的模型之一。在12项基准测试中,其综合性能位列第六,超过了许多更大规模的模型。
- Agent与工具调用能力:令人印象深刻的是,GLM-4.5-Air在核心Agent任务上的表现与旗舰版的GLM-4.5相差无几。在τ-bench(69.4 vs 70.1)和BFCL v3(76.4 vs 77.8)基准上,其分数非常接近,这意味着用户可以用更低的成本获得几乎同等水平的函数调用和基础Agent能力。
- 推理能力:GLM-4.5-Air的推理能力依然强劲。在AIME24和MATH 500等数学基准上,其得分(89.4和98.1)依然处于顶级水平。虽然在MMLU Pro等更广泛的知识性基准上与GLM-4.5有一定差距,但其表现足以应对绝大多数商业和个人应用中的推理需求。
- 代码能力:在代码能力上,GLM-4.5-Air与旗舰版存在一定差距,特别是在复杂的软件工程任务SWE-bench上(57.6 vs 64.2)。尽管如此,它的性能依然足以胜任日常的编码辅助、代码片段生成和简单的脚本编写任务。