GLM-4.7 评测详情

GLM-4.7 当前已收录的代表性评测结果包括 LiveCodeBench（17 / 120，得分 84.90）、τ²-Bench（6 / 40，得分 87.40）、AIME2025（23 / 106，得分 95.70）。

评测结果

GLM-4.7

评测结果

综合评估

共 5 项评测

评测名称 / 模式

得分

排名/总数

85.70

45 / 179

84.30

36 / 126

常规模式

58.09

78 / 115

42.80

44 / 161

24.80

92 / 161

编程与软件工程

共 3 项评测

评测名称 / 模式

得分

排名/总数

84.90

17 / 120

SWE-bench Verified

73.80

39 / 108

SWE-Bench Pro - Public

40.60

40 / 44

数学推理

共 3 项评测

评测名称 / 模式

得分

排名/总数

95.70

23 / 106

92.90

7 / 15

FrontierMath - Tier 4

常规模式

2.10

56 / 80

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

开启思考

47.70

29 / 63

Agent能力评测

共 2 项评测

评测名称 / 模式

得分

排名/总数

87.40

6 / 40

Terminal Bench Hard

33.30

7 / 13

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总数

52

35 / 46

AI Agent - 工具使用

共 2 项评测

评测名称 / 模式

得分

排名/总数

常规模式工具

58.10

18 / 23

Terminal Bench 2.0

41

43 / 46

与其他模型对比