GLM-4.7-Flash 评测详情

GLM-4.7-Flash 当前已收录的代表性评测结果包括 τ²-Bench - Telecom(12 / 35,得分 96)、AIME2025(37 / 106,得分 91.60)、τ²-Bench(16 / 40,得分 79.50)。

评测结果

GLM-4.7-Flash

评测结果

思考模式

综合评估

共 4 项评测
评测名称 / 模式
得分
排名/总数
75.20
93 / 179
66
128 / 179
14.40
123 / 159
6.10
149 / 159

编程与软件工程

共 1 项评测
评测名称 / 模式
得分
排名/总数
59.20
78 / 108

数学推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
91.60
37 / 106

Agent能力评测

共 5 项评测
评测名称 / 模式
得分
排名/总数

指令跟随

共 2 项评测
评测名称 / 模式
得分
排名/总数
68
17 / 29
55
22 / 29

AI Agent - 信息收集

共 1 项评测
评测名称 / 模式
得分
排名/总数
42.80
40 / 45