Qwen3 Max (Preview) 评测详情

Qwen3 Max (Preview) 当前已收录的代表性评测结果包括 MMLU Pro（38 / 132，得分 84）、τ²-Bench（22 / 43，得分 74）、GPQA Diamond（96 / 187，得分 76）。

评测结果

Qwen3 Max (Preview)

评测结果

综合评估

共 3 项评测

评测名称 / 模式

得分

排名/总数

84

38 / 132

76

96 / 187

11.10

141 / 172

编程与软件工程

共 2 项评测

评测名称 / 模式

得分

排名/总数

SWE-bench Verified

69.60

61 / 112

57.50

73 / 123

数学推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

80.60

59 / 107

AI Agent - 工具使用

共 1 项评测

评测名称 / 模式

得分

排名/总数

19

32 / 35

Agent能力评测

共 3 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecom

84.20

25 / 35

74

22 / 43

72

24 / 43

与其他模型对比