GL

GLM-4.5-Air

推理大模型

GLM-4.5-MoE-106B-A12B-0715

发布时间: 2025-07-28

581
模型参数(Parameters)
1060.0
最高上下文长度(Context Length)
128K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

支持

最高上下文输入长度

128K tokens

最长输出结果

97280 tokens

模型类型

推理大模型

发布时间

2025-07-28

模型预文件大小

212 GB

推理模式
常规模式(Non-Thinking Mode) 思考模式(Thinking Mode)

开源和体验地址

代码开源状态
预训练权重开源
Apache 2.0 - 免费商用授权
GitHub 源码
Hugging Face
在线体验

API接口信息

接口速度(满分5分)
接口价格

默认单位:$/100万 tokens;若计费单位不同,则以供应商公开的原始标注为准。

标准计费 Standard
模态 输入 输出
文本 0.2 美元/100 万tokens 1.1 美元/100 万tokens

GLM-4.5-Air模型在各大评测榜单的评分

综合评估

共 4 项评测
MMLU Pro thinking
81.40
31 / 105
GPQA Diamond thinking
75
52 / 133
LiveBench normal
60.53
39 / 48
HLE thinking
10.60
47 / 68

编程与软件工程

共 2 项评测
LiveCodeBench thinking
70.70
26 / 94
57.60
43 / 66

数学推理

共 2 项评测
MATH-500 thinking
98.10
5 / 42
AIME 2024 thinking
89.40
15 / 62

Agent能力评测

共 1 项评测
Terminal-Bench thinking
30
23 / 36

发布机构

GLM-4.5-MoE-106B-A12B-0715模型解读

GLM-4.5-106B-A12B是智谱AI开源的MoE架构的大模型,总参数1060亿,每次推理激活120亿参数。


在官方的帕累托前沿分析中,GLM-4.5-Air被定位为同等规模下性能最优的模型之一。在12项基准测试中,其综合性能位列第六,超过了许多更大规模的模型。

  • Agent与工具调用能力:令人印象深刻的是,GLM-4.5-Air在核心Agent任务上的表现与旗舰版的GLM-4.5相差无几。在τ-bench(69.4 vs 70.1)和BFCL v3(76.4 vs 77.8)基准上,其分数非常接近,这意味着用户可以用更低的成本获得几乎同等水平的函数调用和基础Agent能力。
  • 推理能力:GLM-4.5-Air的推理能力依然强劲。在AIME24和MATH 500等数学基准上,其得分(89.4和98.1)依然处于顶级水平。虽然在MMLU Pro等更广泛的知识性基准上与GLM-4.5有一定差距,但其表现足以应对绝大多数商业和个人应用中的推理需求。
  • 代码能力:在代码能力上,GLM-4.5-Air与旗舰版存在一定差距,特别是在复杂的软件工程任务SWE-bench上(57.6 vs 64.2)。尽管如此,它的性能依然足以胜任日常的编码辅助、代码片段生成和简单的脚本编写任务。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat