Gemini 3.5 Flash Benchmark Analysis

Gemini 3.5 Flash 首次在编程和 Agent 基准上压过自家 Pro 模型。本文分析其 Agent 能力跃升、速度优势与定价陷阱,并给出明确的选用建议。

Gemini 3.5 Flash 是 Google 第一次让 Flash 系列在编程和 Agent 基准上正面碾压自家 Pro 模型。它的意义不在于"便宜的凑合选择",而在于重新定义了什么叫"旗舰速度级模型"。代价是:价格是上代 Flash 的三倍,学术推理能力在同价位竞品中垫底。


"Flash 压倒 Pro"的含义

Gemini 系列历来的分工逻辑是:Pro 负责能力天花板,Flash 负责速度与成本。3.5 Flash 打破了这个分工。

在 Terminal Bench 2.1 上,3.5 Flash 得分 76.2%,而 Gemini 3.1 Pro 仅为 70.3%——一个轻量版本在代码基准上领先自家旗舰整整 6 个百分点。这在 Gemini 系列历史上是第一次。MCP Atlas(模型调用工具的能力评测)结果类似,3.5 Flash 以 83.6% 超过 3.1 Pro 的 78.2%。

这意味着:如果你的工作负载是编程辅助或 Agent 任务,等待下个月 3.5 Pro 上线再做决策,不一定比现在直接用 3.5 Flash 更明智。


Agent 能力:从相对弱项到行业前列

Gemini 系列长期在 Agent 能力上落后于 Claude 和 GPT。3.5 Flash 是一次实质性扭转。

第三方独立测评机构 Artificial Analysis 的 GDPval-AA(真实世界多步骤 Agent 任务)显示,3.5 Flash 达到 1656 Elo,而 Gemini 3.0 Flash 仅 1204、Gemini 3.1 Pro 仅 1314。单次迭代的 Elo 跃升幅度超过了 3 Flash 到 3.1 Pro 的整个代际提升。从 DataLearner 收录的 OSWorld-Verified 数据看,78.4% 的得分已与 Anthropic Opus 4.7(78.0%)持平,仅小幅落后于 GPT-5.5(78.7%)。

幻觉率是 Agent 能力的重要支撑指标。Artificial Analysis 的 AA-Omniscience 评测显示,3.5 Flash 的幻觉率从 Gemini 3 Flash 的 92% 大幅下降至 61%,降幅达 31 个百分点。幻觉率的下降直接提高了多轮工具调用的可靠性——这是 Agent 场景的核心诉求。


速度优势是真实的,但定价逻辑已改变

3.5 Flash 的输出速度超过每秒 280 个 token,是 GPT-5.5 和 Opus 4.7(约 60–70 token/秒)的四倍。这个速度差距在实时交互场景和高并发 Agent 调度中具有实际价值,不只是纸面数据。

但速度优势需要对照定价重新理解。Gemini 3.5 Flash 的标准定价为输入 $1.5、输出 $9(每百万 token),是 Gemini 3 Flash($0.5/$3)的三倍。Artificial Analysis 的测算显示,跑完同一套完整评测集,3.5 Flash 的综合成本是 Gemini 3 Flash 的 5.5 倍——差值不全来自定价,一半来自 Agent 任务中更长的多轮上下文导致 token 用量激增。

这意味着从 3 Flash 迁移到 3.5 Flash 时,预算估算不能简单按"价格涨三倍"来算,实际账单增幅可能更高。Google 提供 90% 的缓存折扣,这对大量复用系统提示的 Agent 架构是实质性补偿,但对每次调用上下文都不同的场景帮助有限。

相对于跨厂商竞品,价格优势是真实的:$1.5/$9 对比 GPT-5.5 的 $5/$30 和 Opus 4.7 的 $5/$25,综合到位成本确实接近三分之一。


多模态:Google 仍然是唯一的全能选手

在 DataLearner 收录的竞品对比框架中,Claude Opus 4.7、Grok 4.3 和 GPT-5.5 均只支持图像输入。Gemini 3.5 Flash 原生支持图像、视频和语音输入,这不是边缘特性,而是对需要处理非结构化多模态数据的企业场景的结构性优势。

在 Artificial Analysis 的 MMMU-Pro 多模态理解评测中,3.5 Flash 得分 84%,是当前全榜最高分,第二名是同系列的 Gemini 3.1 Pro(82%)。CharXiv Reasoning(图表理解与推理)84.2% 同样领先全场。


弱项不应被掩盖

HLE(Humanity's Last Exam,极高难度的学术推理综合题)是 3.5 Flash 的明显短板。DataLearner 收录的 40.2% 不仅是本页竞品中的最低分(Sonnet 4.6 为 49.0%,Opus 4.7 为 54.7%,GPT-5.5 为 52.2%),也低于上代 Gemini 3.0 Flash 的 43.5%——这是一个罕见的代际下滑。

Artificial Analysis 的综合智力指数(Intelligence Index)给 3.5 Flash 打了 55 分,高于 Grok 4.3(53 分)和 Claude Sonnet 4.6(52 分),但低于 Opus 4.7(57 分)和 GPT-5.5(60 分)。在分项结构上,学术推理和长文档精确召回是相对薄弱环节。

这不是挑剔。如果你的业务场景是复杂文档分析、法律条文解读、需要精确长文本推理的工作流,3.5 Flash 目前不是最优选择,应等待 3.5 Pro 或继续使用 Gemini 3.1 Pro。


谁适合用,谁应该等

适合现在切换到 3.5 Flash 的场景:
多步骤 Agent 工作流、编程辅助与代码生成、需要高吞吐量的实时交互场景、涉及图像/视频/语音输入的多模态任务、对成本敏感但不愿接受明显能力妥协的应用。

建议等待或保持现有方案的场景:
依赖高难度学术推理的研究工具(等 3.5 Pro)、对长文档精确召回要求极高的法律/合规场景(等 3.5 Pro)、仍在使用 Gemini 3.0 Flash 且 Agent 需求不强的轻量级用例(直接升级的成本回报比需要重新评估)。


代际跨度真正有多大

Gemini 3.5 Flash 的版本号从 3.0 到 3.5,时间间隔约五个月。ARC-AGI-2 数据是最直观的跨代指标:3.5 Flash 72.1%,Gemini 3.0 Flash 33.6%,提升超过 38 个百分点,几乎翻倍。Terminal Bench 2.0 的提升同样显著:76.2% vs. 3.0 Flash 的 47.6%。

这不是正常的迭代幅度。从外部信息推测,3.5 Flash 的 Agent 能力提升幅度来自训练策略的方向性调整,而非单纯的参数扩大——这与 Google 将其定位为"frontier intelligence with action"的产品叙事一致。


DataLearner 编辑判断

Gemini 3.5 Flash 是 2026 年 5 月前后性价比最优的 Agent 和编程模型,没有之一。它在旗舰对比中没有全面领先,但在速度-智力-价格三维帕累托前沿上占据了此前从未有过的位置。

Google 把这个版本定义为"一系列将前沿智力与行动力结合的模型中的第一个"——如果下个月的 3.5 Pro 延续这个方向,2026 年下半年的大模型格局可能会比现在有趣很多。

Benchmark Results

Gemini 3.5 Flash

Benchmark Results

Thinking
Tool usage

General Knowledge

3 evaluations
Benchmark / mode
Score
Rank/total
75.02
17 / 115
ARC-AGI-2
HighTools
72.10
11 / 59
HLE
HighTools
40.20
55 / 161

常识推理

1 evaluations
Benchmark / mode
Score
Rank/total
Simple Bench
Standard Mode
76.70
4 / 63

Coding and Software Engineer

2 evaluations
Benchmark / mode
Score
Rank/total
55.10
21 / 44
DeepSWE
Thinking Level · MediumTools
37
6 / 9

AI Agent - Tool Usage

3 evaluations
Benchmark / mode
Score
Rank/total
MCP-Atlas
HighTools
83.60
1 / 23
78.40
6 / 19
76.20
8 / 16

Competitor Comparison

Benchmark scores for Gemini 3.5 Flash compared against top models in its class

Benchmark categories:
The chart shows each model’s highest score per benchmark within the current filter. Out-of-100 benchmarks use raw heights; out-of-range benchmarks are scaled within that benchmark while labels keep the original scores.

4 benchmarks with comparable scores. Each model shows its best score; mode label is displayed below.

BenchmarkGemini 3.5 FlashCurrentClaude Sonnet 4.6Opus 4.7GPT-5.5
LiveBench
综合评估
75.02Thinking Level · High
75.47Thinking Level · Medium
76.91Deep Thinking Mode
80.71Deep Thinking Mode
Simple Bench
常识推理
76.70Standard Mode
--
61.70Standard Mode
69.00Standard Mode
DeepSWE
编程与软件工程
37.00Thinking Level · Medium | Tools
30.00Thinking Level · High | Tools
--
67.00Thinking Level · Extra High | Tools
MCP-Atlas
AI Agent - 工具使用
83.60Thinking Level · High | Tools
69.50Standard Mode | Tools
79.10Deep Thinking Mode | Tools
75.30Thinking Level · Extra High | Tools

Standard API Pricing: Gemini 3.5 Flash vs. Peer Models

Shows standard text input and output pricing side by side for each model. If extended-context pricing exists, the chart keeps the base rate and explains the threshold below.

Source: DataLearnerAI. Standard text prices shown here use the default supplier. · USD / 1M tokens

When a context threshold exists, the charted base price only applies within these limits:

Claude Sonnet 4.6: Base price applies to <= 200K
ModelSupplierStandard inputStandard outputBase price applies to
Gemini 3.5 Flash
DeepMind$1.5 / 1M tokens$9 / 1M tokens
Claude Sonnet 4.6
Anthropic$3 / 1M tokens$15 / 1M tokens<= 200K
Opus 4.7
Anthropic$5 / 1M tokens$25 / 1M tokens
GPT-5.5
OpenAI$5 / 1M tokens$30 / 1M tokens

Version History

How each version of the Gemini 3.5 Flash series stacks up on benchmark tests

Benchmark categories:
The chart shows each model’s highest score per benchmark within the current filter. Out-of-100 benchmarks use raw heights; out-of-range benchmarks are scaled within that benchmark while labels keep the original scores.

6 benchmarks with comparable scores. Each model shows its best score; mode label is displayed below.· Click a row to view its trend chart.

BenchmarkGemini 3.5 FlashCurrentGemini 3.0 FlashGemini 2.5 Flash
ARC-AGI-2
综合评估
72.10Thinking Level · High | Tools
33.60Thinking Enabled
--
HLE
综合评估
40.20Thinking Level · High | Tools
43.50Thinking Enabled | Tools
11.00Thinking Enabled
LiveBench
综合评估
75.02Thinking Level · High
72.40Thinking Level · High
47.74Thinking Level · High
Simple Bench
常识推理
76.70Standard Mode
--
41.20Standard Mode
SWE-Bench Pro - Public
编程与软件工程
55.10Thinking Level · High | Tools
49.60Thinking Level · High | Tools
--
TerminalBench 2.1
AI Agent - 工具使用
76.20Thinking Level · High | Tools
58.00Thinking Level · High | Tools
--

Single-Benchmark Version Trend

Viewing: ARC-AGI-2 · 综合评估

Benchmark
NormalNormal + ToolsThinkingThinking + ToolsDeepDeep + Tools

X-axis shows model and release date, Y-axis shows score; solid lines connect the same mode across versions, while dotted guides align modes within the same generation.

Standard API Pricing Across the Gemini 3.5 Flash Series

Shows standard text input and output pricing side by side for each model. If extended-context pricing exists, the chart keeps the base rate and explains the threshold below.

Source: DataLearnerAI. Standard text prices shown here use the default supplier. · USD / 1M tokens

ModelSupplierStandard inputStandard outputBase price applies to
Gemini 3.5 Flash
DeepMind$1.5 / 1M tokens$9 / 1M tokens

Sources