Qwen3.5-397B-A17B 评测详情

Qwen3.5-397B-A17B 当前已收录的代表性评测结果包括 MMLU Pro（10 / 126，得分 87.80）、Pinch Bench（3 / 37，得分 89.10）、IF Bench（3 / 29，得分 76.50）。并附有 1 个数据来源链接供参考。

评测结果

Qwen3.5-397B-A17B

评测结果

综合评估

共 5 项评测

评测名称 / 模式

得分

排名/总数

思考模式

93

3 / 9

思考模式

88.40

27 / 179

思考模式

87.80

10 / 126

思考模式

28.70

84 / 161

思考模式工具联网

48.30

30 / 161

编程与软件工程

共 4 项评测

评测名称 / 模式

得分

排名/总数

思考模式

83.60

20 / 120

SWE-bench Verified

思考模式工具

76.40

29 / 108

SWE-bench Multilingual

思考模式

69.30

17 / 20

SWE-Bench Pro - Public

思考模式

50.90

30 / 44

多模态理解

共 1 项评测

评测名称 / 模式

得分

排名/总数

思考模式

85

4 / 28

Agent能力评测

共 1 项评测

评测名称 / 模式

得分

排名/总数

思考模式工具

86.70

7 / 40

指令跟随

共 1 项评测

评测名称 / 模式

得分

排名/总数

思考模式

76.50

3 / 29

AI Agent - 信息收集

共 2 项评测

评测名称 / 模式

得分

排名/总数

思考模式工具联网

78.60

16 / 46

思考模式工具

69

23 / 46

AI Agent - 工具使用

共 3 项评测

评测名称 / 模式

得分

排名/总数

OSWorld-Verified

思考模式工具

62.20

14 / 19

Terminal Bench 2.0

思考模式工具

52.50

29 / 46

思考模式工具

38.30

5 / 7

数学推理

共 2 项评测

评测名称 / 模式

得分

排名/总数

思考模式

91.30

12 / 15

IMO-AnswerBench

思考模式

80.90

16 / 20

长上下文能力

共 2 项评测

评测名称 / 模式

得分

排名/总数

思考模式

68.70

5 / 13

常规模式

63.20

2 / 11

OpenClaw智能体能力综合测评

共 1 项评测

评测名称 / 模式

得分

排名/总数

思考模式工具

89.10

3 / 37

与其他模型对比

数据来源