DataLearnerAI
Toggle menu
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
Tools
搜索博客
中
EN
加载中...
大模型列表
Step 3.5 Flash
评测分析
Step 3.5 Flash 评测详情
以下是 Step 3.5 Flash 在各项评测中的得分数据与模型对比。深度分析报告正在准备中。
评测结果
Step 3.5 Flash
评测结果
思考模式
全部
思考
思考模式细分 (2)
全部
默认 (thinking)
thinking
工具使用
全部
使用工具
不使用工具
综合评估
共 1 项评测
评测名称 / 模式
得分
排名/总数
ARC-AGI
thinking
使用工具
56.50
25 / 49
数学推理
共 2 项评测
评测名称 / 模式
得分
排名/总数
AIME2025
thinking
使用工具
99.80
6 / 107
IMO-AnswerBench
thinking
使用工具
86.70
1 / 7
Agent能力评测
共 1 项评测
评测名称 / 模式
得分
排名/总数
τ²-Bench
thinking
使用工具
88.20
5 / 39
AI Agent - 信息收集
共 1 项评测
评测名称 / 模式
得分
排名/总数
BrowseComp
thinking
使用工具
69
13 / 33
AI Agent - 工具使用
共 1 项评测
评测名称 / 模式
得分
排名/总数
Terminal Bench 2.0
thinking
使用工具
51
14 / 24
与其他模型对比
Step 3.5 Flash 评测详情 | DataLearnerAI