Qwen3 Max (Preview) 评测详情

Qwen3 Max (Preview) 当前已收录的代表性评测结果包括 MMLU Pro(37 / 126,得分 84)、LiveBench(21 / 52,得分 69.86)、GPQA Diamond(90 / 178,得分 76)。

评测结果

Qwen3 Max (Preview)

评测结果

思考模式

综合评估

共 4 项评测
评测名称 / 模式
得分
排名/总数
84
37 / 126
76
90 / 178
69.86
21 / 52
11.10
126 / 157

编程与软件工程

共 2 项评测
评测名称 / 模式
得分
排名/总数
69.60
57 / 108
57.50
72 / 120

数学推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
80.60
58 / 106

AI Agent - 工具使用

共 1 项评测
评测名称 / 模式
得分
排名/总数

Agent能力评测

共 3 项评测
评测名称 / 模式
得分
排名/总数
74
21 / 40
72
23 / 40