GLM-5.2 评测详情

GLM-5.2 当前已收录的代表性评测结果包括 IMO-AnswerBench(1 / 20,得分 91)、HLE(8 / 159,得分 54.70)、AIME 2026(1 / 15,得分 99.20)。

评测结果

GLM-5.2

评测结果

思考模式
工具使用

综合评估

共 3 项评测
评测名称 / 模式
得分
排名/总数
GPQA Diamond
开启思考
91.20
15 / 179
HLE
开启思考
40.50
51 / 159
HLE
开启思考工具
54.70
8 / 159

编程与软件工程

共 1 项评测
评测名称 / 模式
得分
排名/总数
SWE-Bench Pro - Public
开启思考工具
62.10
5 / 44

数学推理

共 2 项评测
评测名称 / 模式
得分
排名/总数
AIME 2026
开启思考
99.20
1 / 15
IMO-AnswerBench
开启思考
91
1 / 20

AI Agent - 工具使用

共 1 项评测
评测名称 / 模式
得分
排名/总数
81
4 / 14