Gemini 3.5 Flash 评测深度分析

Gemini 3.5 Flash 首次在编程和 Agent 基准上压过自家 Pro 模型。本文分析其 Agent 能力跃升、速度优势与定价陷阱,并给出明确的选用建议。

Gemini 3.5 Flash 是 Google 第一次让 Flash 系列在编程和 Agent 基准上正面碾压自家 Pro 模型。它的意义不在于"便宜的凑合选择",而在于重新定义了什么叫"旗舰速度级模型"。代价是:价格是上代 Flash 的三倍,学术推理能力在同价位竞品中垫底。


"Flash 压倒 Pro"的含义

Gemini 系列历来的分工逻辑是:Pro 负责能力天花板,Flash 负责速度与成本。3.5 Flash 打破了这个分工。

在 Terminal Bench 2.1 上,3.5 Flash 得分 76.2%,而 Gemini 3.1 Pro 仅为 70.3%——一个轻量版本在代码基准上领先自家旗舰整整 6 个百分点。这在 Gemini 系列历史上是第一次。MCP Atlas(模型调用工具的能力评测)结果类似,3.5 Flash 以 83.6% 超过 3.1 Pro 的 78.2%。

这意味着:如果你的工作负载是编程辅助或 Agent 任务,等待下个月 3.5 Pro 上线再做决策,不一定比现在直接用 3.5 Flash 更明智。


Agent 能力:从相对弱项到行业前列

Gemini 系列长期在 Agent 能力上落后于 Claude 和 GPT。3.5 Flash 是一次实质性扭转。

第三方独立测评机构 Artificial Analysis 的 GDPval-AA(真实世界多步骤 Agent 任务)显示,3.5 Flash 达到 1656 Elo,而 Gemini 3.0 Flash 仅 1204、Gemini 3.1 Pro 仅 1314。单次迭代的 Elo 跃升幅度超过了 3 Flash 到 3.1 Pro 的整个代际提升。从 DataLearner 收录的 OSWorld-Verified 数据看,78.4% 的得分已与 Anthropic Opus 4.7(78.0%)持平,仅小幅落后于 GPT-5.5(78.7%)。

幻觉率是 Agent 能力的重要支撑指标。Artificial Analysis 的 AA-Omniscience 评测显示,3.5 Flash 的幻觉率从 Gemini 3 Flash 的 92% 大幅下降至 61%,降幅达 31 个百分点。幻觉率的下降直接提高了多轮工具调用的可靠性——这是 Agent 场景的核心诉求。


速度优势是真实的,但定价逻辑已改变

3.5 Flash 的输出速度超过每秒 280 个 token,是 GPT-5.5 和 Opus 4.7(约 60–70 token/秒)的四倍。这个速度差距在实时交互场景和高并发 Agent 调度中具有实际价值,不只是纸面数据。

但速度优势需要对照定价重新理解。Gemini 3.5 Flash 的标准定价为输入 $1.5、输出 $9(每百万 token),是 Gemini 3 Flash($0.5/$3)的三倍。Artificial Analysis 的测算显示,跑完同一套完整评测集,3.5 Flash 的综合成本是 Gemini 3 Flash 的 5.5 倍——差值不全来自定价,一半来自 Agent 任务中更长的多轮上下文导致 token 用量激增。

这意味着从 3 Flash 迁移到 3.5 Flash 时,预算估算不能简单按"价格涨三倍"来算,实际账单增幅可能更高。Google 提供 90% 的缓存折扣,这对大量复用系统提示的 Agent 架构是实质性补偿,但对每次调用上下文都不同的场景帮助有限。

相对于跨厂商竞品,价格优势是真实的:$1.5/$9 对比 GPT-5.5 的 $5/$30 和 Opus 4.7 的 $5/$25,综合到位成本确实接近三分之一。


多模态:Google 仍然是唯一的全能选手

在 DataLearner 收录的竞品对比框架中,Claude Opus 4.7、Grok 4.3 和 GPT-5.5 均只支持图像输入。Gemini 3.5 Flash 原生支持图像、视频和语音输入,这不是边缘特性,而是对需要处理非结构化多模态数据的企业场景的结构性优势。

在 Artificial Analysis 的 MMMU-Pro 多模态理解评测中,3.5 Flash 得分 84%,是当前全榜最高分,第二名是同系列的 Gemini 3.1 Pro(82%)。CharXiv Reasoning(图表理解与推理)84.2% 同样领先全场。


弱项不应被掩盖

HLE(Humanity's Last Exam,极高难度的学术推理综合题)是 3.5 Flash 的明显短板。DataLearner 收录的 40.2% 不仅是本页竞品中的最低分(Sonnet 4.6 为 49.0%,Opus 4.7 为 54.7%,GPT-5.5 为 52.2%),也低于上代 Gemini 3.0 Flash 的 43.5%——这是一个罕见的代际下滑。

Artificial Analysis 的综合智力指数(Intelligence Index)给 3.5 Flash 打了 55 分,高于 Grok 4.3(53 分)和 Claude Sonnet 4.6(52 分),但低于 Opus 4.7(57 分)和 GPT-5.5(60 分)。在分项结构上,学术推理和长文档精确召回是相对薄弱环节。

这不是挑剔。如果你的业务场景是复杂文档分析、法律条文解读、需要精确长文本推理的工作流,3.5 Flash 目前不是最优选择,应等待 3.5 Pro 或继续使用 Gemini 3.1 Pro。


谁适合用,谁应该等

适合现在切换到 3.5 Flash 的场景:
多步骤 Agent 工作流、编程辅助与代码生成、需要高吞吐量的实时交互场景、涉及图像/视频/语音输入的多模态任务、对成本敏感但不愿接受明显能力妥协的应用。

建议等待或保持现有方案的场景:
依赖高难度学术推理的研究工具(等 3.5 Pro)、对长文档精确召回要求极高的法律/合规场景(等 3.5 Pro)、仍在使用 Gemini 3.0 Flash 且 Agent 需求不强的轻量级用例(直接升级的成本回报比需要重新评估)。


代际跨度真正有多大

Gemini 3.5 Flash 的版本号从 3.0 到 3.5,时间间隔约五个月。ARC-AGI-2 数据是最直观的跨代指标:3.5 Flash 72.1%,Gemini 3.0 Flash 33.6%,提升超过 38 个百分点,几乎翻倍。Terminal Bench 2.0 的提升同样显著:76.2% vs. 3.0 Flash 的 47.6%。

这不是正常的迭代幅度。从外部信息推测,3.5 Flash 的 Agent 能力提升幅度来自训练策略的方向性调整,而非单纯的参数扩大——这与 Google 将其定位为"frontier intelligence with action"的产品叙事一致。


DataLearner 编辑判断

Gemini 3.5 Flash 是 2026 年 5 月前后性价比最优的 Agent 和编程模型,没有之一。它在旗舰对比中没有全面领先,但在速度-智力-价格三维帕累托前沿上占据了此前从未有过的位置。

Google 把这个版本定义为"一系列将前沿智力与行动力结合的模型中的第一个"——如果下个月的 3.5 Pro 延续这个方向,2026 年下半年的大模型格局可能会比现在有趣很多。

评测结果

Gemini 3.5 Flash

评测结果

思考模式
工具使用

综合评估

共 3 项评测
评测名称 / 模式
得分
排名/总数
75.02
17 / 115
ARC-AGI-2
工具
72.10
11 / 59
HLE
工具
40.20
55 / 161

常识推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
Simple Bench
常规模式
76.70
4 / 63

编程与软件工程

共 2 项评测
评测名称 / 模式
得分
排名/总数
55.10
21 / 44
DeepSWE
思考水平·中工具
37
6 / 9

AI Agent - 工具使用

共 3 项评测
评测名称 / 模式
得分
排名/总数
MCP-Atlas
工具
83.60
1 / 23
78.40
6 / 19
76.20
8 / 16

竞品对比

Gemini 3.5 Flash 与同类主流模型的评测得分对比

评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;百分制评测使用原始高度,超出 0-100 的评测按该评测内相对比例缩放,标签仍保留原始分数。

4 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。

评测项Gemini 3.5 Flash当前Claude Sonnet 4.6Opus 4.7GPT-5.5
LiveBench
综合评估
75.02思考水平·高
75.47思考水平·中
76.91深度思考模式
80.71深度思考模式
Simple Bench
常识推理
76.70常规模式
--
61.70常规模式
69.00常规模式
DeepSWE
编程与软件工程
37.00思考水平·中 | 工具
30.00思考水平·高 | 工具
--
67.00思考水平·极高 | 工具
MCP-Atlas
AI Agent - 工具使用
83.60思考水平·高 | 工具
69.50常规模式 | 工具
79.10深度思考模式 | 工具
75.30思考水平·极高 | 工具

Gemini 3.5 Flash 与同类模型的标准 API 价格对比

按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。

数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens

若存在上下文阈值,图中标准价仅适用于以下范围:

Claude Sonnet 4.6: 标准价适用于 <= 200K
模型供应商标准输入标准输出标准价适用于
Gemini 3.5 Flash
DeepMind$1.5 / 1M tokens$9 / 1M tokens
Claude Sonnet 4.6
Anthropic$3 / 1M tokens$15 / 1M tokens<= 200K
Opus 4.7
Anthropic$5 / 1M tokens$25 / 1M tokens
GPT-5.5
OpenAI$5 / 1M tokens$30 / 1M tokens

历代版本对比

Gemini 3.5 Flash 系列各版本的评测成绩纵向对比

评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;百分制评测使用原始高度,超出 0-100 的评测按该评测内相对比例缩放,标签仍保留原始分数。

6 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。· 点击任意行可切换下方趋势图。

评测项Gemini 3.5 Flash当前Gemini 3.0 FlashGemini 2.5 Flash
ARC-AGI-2
综合评估
72.10思考水平·高 | 工具
33.60开启思考
--
HLE
综合评估
40.20思考水平·高 | 工具
43.50开启思考 | 工具
11.00开启思考
LiveBench
综合评估
75.02思考水平·高
72.40思考水平·高
47.74思考水平·高
Simple Bench
常识推理
76.70常规模式
--
41.20常规模式
SWE-Bench Pro - Public
编程与软件工程
55.10思考水平·高 | 工具
49.60思考水平·高 | 工具
--
TerminalBench 2.1
AI Agent - 工具使用
76.20思考水平·高 | 工具
58.00思考水平·高 | 工具
--

单评测历史趋势图

当前查看:ARC-AGI-2 · 综合评估

选择评测
常规常规 + 工具推理推理 + 工具深度推理深度推理 + 工具

横轴为模型与发布时间,纵轴为分数;同一模式会用实线串起版本变化,同代不同模式继续用虚线辅助对齐。

Gemini 3.5 Flash 所在系列的标准 API 价格对比

按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。

数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens

模型供应商标准输入标准输出标准价适用于
Gemini 3.5 Flash
DeepMind$1.5 / 1M tokens$9 / 1M tokens

数据来源