Qwen2.5-Max 评测详情

Qwen2.5-Max 当前已收录的代表性评测结果包括 MMLU（21 / 66，得分 87.90）、GSM8K（9 / 26，得分 94.50）、MBPP（10 / 28，得分 80.60）。

评测结果

Qwen2.5-Max

评测结果

综合评估

共 2 项评测

评测名称 / 模式

得分

排名/总数

87.90

21 / 66

76.10

79 / 132

数学推理

共 3 项评测

评测名称 / 模式

得分

排名/总数

94.50

9 / 26

68.50

24 / 42

1

52 / 60

编程与软件工程

共 2 项评测

评测名称 / 模式

得分

排名/总数

80.60

10 / 28

73.20

26 / 39

Agent能力评测

共 1 项评测

评测名称 / 模式

得分

排名/总数

常规模式

21.80

48 / 59

与其他模型对比