Qwen3.5-397B-A17B 评测详情

Qwen3.5-397B-A17B 当前已收录的代表性评测结果包括 MMLU Pro(10 / 126,得分 87.80)、Pinch Bench(3 / 37,得分 89.10)、IF Bench(3 / 29,得分 76.50)。并附有 1 个数据来源链接供参考。

评测结果

Qwen3.5-397B-A17B

评测结果

思考模式
工具使用
联网能力

综合评估

共 5 项评测
评测名称 / 模式
得分
排名/总数
C-Eval
思考模式
93
3 / 9
GPQA Diamond
思考模式
88.40
27 / 179
MMLU Pro
思考模式
87.80
10 / 126
HLE
思考模式
28.70
84 / 161
HLE
思考模式工具联网
48.30
30 / 161

编程与软件工程

共 4 项评测
评测名称 / 模式
得分
排名/总数
LiveCodeBench
思考模式
83.60
20 / 120
SWE-bench Verified
思考模式工具
76.40
29 / 108
69.30
17 / 20
50.90
30 / 44

多模态理解

共 1 项评测
评测名称 / 模式
得分
排名/总数
MMMU
思考模式
85
4 / 28

Agent能力评测

共 1 项评测
评测名称 / 模式
得分
排名/总数
τ²-Bench
思考模式工具
86.70
7 / 40

指令跟随

共 1 项评测
评测名称 / 模式
得分
排名/总数
IF Bench
思考模式
76.50
3 / 29

AI Agent - 信息收集

共 2 项评测
评测名称 / 模式
得分
排名/总数
BrowseComp
思考模式工具联网
78.60
16 / 46
BrowseComp
思考模式工具
69
23 / 46

AI Agent - 工具使用

共 3 项评测
评测名称 / 模式
得分
排名/总数
OSWorld-Verified
思考模式工具
62.20
14 / 19
Terminal Bench 2.0
思考模式工具
52.50
29 / 46
Tool Decathlon
思考模式工具
38.30
5 / 7

数学推理

共 2 项评测
评测名称 / 模式
得分
排名/总数
AIME 2026
思考模式
91.30
12 / 15
IMO-AnswerBench
思考模式
80.90
16 / 20

长上下文能力

共 2 项评测
评测名称 / 模式
得分
排名/总数
AA-LCR
思考模式
68.70
5 / 13
LongBench v2
常规模式
63.20
2 / 11

OpenClaw智能体能力综合测评

共 1 项评测
评测名称 / 模式
得分
排名/总数
Pinch Bench
思考模式工具
89.10
3 / 37

数据来源