GLM-4.6 评测详情

GLM-4.6 当前已收录的代表性评测结果包括 AIME2025（15 / 106，得分 98.60）、LiveCodeBench（18 / 120，得分 84.50）、MMLU Pro（43 / 126，得分 83）。

评测结果

GLM-4.6

评测结果

综合评估

共 9 项评测

评测名称 / 模式

得分

排名/总数

83

43 / 126

78

69 / 126

82.90

62 / 179

81

70 / 179

63

136 / 179

常规模式

55.19

81 / 115

30.40

76 / 159

17.20

118 / 159

5.20

152 / 159

编程与软件工程

共 5 项评测

评测名称 / 模式

得分

排名/总数

84.50

18 / 120

82.80

24 / 120

56

79 / 120

SWE-bench Verified

68

65 / 108

SWE-bench Verified

68

65 / 108

数学推理

共 4 项评测

评测名称 / 模式

得分

排名/总数

98.60

15 / 106

98.60

15 / 106

44

92 / 106

FrontierMath - Tier 4

常规模式

2.10

56 / 80

AI Agent - 工具使用

共 1 项评测

评测名称 / 模式

得分

排名/总数

40.50

12 / 35

Agent能力评测

共 2 项评测

评测名称 / 模式

得分

排名/总数

75.90

20 / 40

τ²-Bench - Telecom

71

27 / 35

指令跟随

共 1 项评测

评测名称 / 模式

得分

排名/总数

43

29 / 29

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总数

45.10

38 / 45

与其他模型对比