GLM-4.7 评测详情

GLM-4.7 当前已收录的代表性评测结果包括 LiveCodeBench(17 / 120,得分 84.90)、τ²-Bench(6 / 40,得分 87.40)、AIME2025(23 / 106,得分 95.70)。

评测结果

GLM-4.7

评测结果

思考模式
工具使用

综合评估

共 5 项评测
评测名称 / 模式
得分
排名/总数
85.70
45 / 179
84.30
36 / 126
LiveBench
常规模式
58.09
78 / 115
42.80
44 / 161
24.80
92 / 161

编程与软件工程

共 3 项评测
评测名称 / 模式
得分
排名/总数
84.90
17 / 120
73.80
39 / 108

数学推理

共 3 项评测
评测名称 / 模式
得分
排名/总数
95.70
23 / 106
92.90
7 / 15
2.10
56 / 80

常识推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
Simple Bench
开启思考
47.70
29 / 63

Agent能力评测

共 2 项评测
评测名称 / 模式
得分
排名/总数
87.40
6 / 40

AI Agent - 信息收集

共 1 项评测
评测名称 / 模式
得分
排名/总数
52
35 / 46

AI Agent - 工具使用

共 2 项评测
评测名称 / 模式
得分
排名/总数
MCP-Atlas
常规模式工具
58.10
18 / 23