GLM-4.6 评测详情

GLM-4.6 当前已收录的代表性评测结果包括 AIME2025(15 / 106,得分 98.60)、LiveCodeBench(18 / 120,得分 84.50)、MMLU Pro(43 / 126,得分 83)。

评测结果

GLM-4.6

评测结果

思考模式

综合评估

共 9 项评测
评测名称 / 模式
得分
排名/总数
83
43 / 126
78
69 / 126
82.90
62 / 179
81
70 / 179
63
136 / 179
LiveBench
常规模式
55.19
81 / 115
30.40
76 / 159
17.20
118 / 159
5.20
152 / 159

编程与软件工程

共 5 项评测
评测名称 / 模式
得分
排名/总数
84.50
18 / 120
82.80
24 / 120
56
79 / 120

数学推理

共 4 项评测
评测名称 / 模式
得分
排名/总数
98.60
15 / 106
98.60
15 / 106
44
92 / 106
2.10
56 / 80

AI Agent - 工具使用

共 1 项评测
评测名称 / 模式
得分
排名/总数
40.50
12 / 35

Agent能力评测

共 2 项评测
评测名称 / 模式
得分
排名/总数
75.90
20 / 40

指令跟随

共 1 项评测
评测名称 / 模式
得分
排名/总数
43
29 / 29

AI Agent - 信息收集

共 1 项评测
评测名称 / 模式
得分
排名/总数
45.10
38 / 45