Step 3.5 Flash 评测详情

Step 3.5 Flash 当前已收录的代表性评测结果包括 AIME2025(6 / 106,得分 99.80)、LiveCodeBench(13 / 120,得分 86.40)、τ²-Bench(5 / 40,得分 88.20)。

评测结果

Step 3.5 Flash

评测结果

思考模式
工具使用

综合评估

共 2 项评测
评测名称 / 模式
得分
排名/总数
56.50
39 / 65
53.50
42 / 65

编程与软件工程

共 2 项评测
评测名称 / 模式
得分
排名/总数
86.40
13 / 120
74.40
38 / 108

数学推理

共 4 项评测
评测名称 / 模式
得分
排名/总数
99.80
6 / 106
97.30
18 / 106
86.70
6 / 20
85.40
8 / 20

Agent能力评测

共 1 项评测
评测名称 / 模式
得分
排名/总数
88.20
5 / 40

AI Agent - 信息收集

共 1 项评测
评测名称 / 模式
得分
排名/总数
69
22 / 45

AI Agent - 工具使用

共 1 项评测
评测名称 / 模式
得分
排名/总数

OpenClaw智能体能力综合测评

共 2 项评测
评测名称 / 模式
得分
排名/总数
Pinch Bench
开启思考工具
85.30
15 / 37
Claw Bench
开启思考工具
84.90
16 / 29