Gemini 3.5 Flash 是 Google 第一次让 Flash 系列在编程和 Agent 基准上正面碾压自家 Pro 模型。它的意义不在于"便宜的凑合选择"，而在于重新定义了什么叫"旗舰速度级模型"。代价是：价格是上代 Flash 的三倍，学术推理能力在同价位竞品中垫底。

"Flash 压倒 Pro"的含义

Gemini 系列历来的分工逻辑是：Pro 负责能力天花板，Flash 负责速度与成本。3.5 Flash 打破了这个分工。

在 Terminal Bench 2.1 上，3.5 Flash 得分 76.2%，而 Gemini 3.1 Pro 仅为 70.3%——一个轻量版本在代码基准上领先自家旗舰整整 6 个百分点。这在 Gemini 系列历史上是第一次。MCP Atlas（模型调用工具的能力评测）结果类似，3.5 Flash 以 83.6% 超过 3.1 Pro 的 78.2%。

这意味着：如果你的工作负载是编程辅助或 Agent 任务，等待下个月 3.5 Pro 上线再做决策，不一定比现在直接用 3.5 Flash 更明智。

Agent 能力：从相对弱项到行业前列

Gemini 系列长期在 Agent 能力上落后于 Claude 和 GPT。3.5 Flash 是一次实质性扭转。

第三方独立测评机构 Artificial Analysis 的 GDPval-AA（真实世界多步骤 Agent 任务）显示，3.5 Flash 达到 1656 Elo，而 Gemini 3.0 Flash 仅 1204、Gemini 3.1 Pro 仅 1314。单次迭代的 Elo 跃升幅度超过了 3 Flash 到 3.1 Pro 的整个代际提升。从 DataLearner 收录的 OSWorld-Verified 数据看，78.4% 的得分已与 Anthropic Opus 4.7（78.0%）持平，仅小幅落后于 GPT-5.5（78.7%）。

幻觉率是 Agent 能力的重要支撑指标。Artificial Analysis 的 AA-Omniscience 评测显示，3.5 Flash 的幻觉率从 Gemini 3 Flash 的 92% 大幅下降至 61%，降幅达 31 个百分点。幻觉率的下降直接提高了多轮工具调用的可靠性——这是 Agent 场景的核心诉求。

速度优势是真实的，但定价逻辑已改变

3.5 Flash 的输出速度超过每秒 280 个 token，是 GPT-5.5 和 Opus 4.7（约 60–70 token/秒）的四倍。这个速度差距在实时交互场景和高并发 Agent 调度中具有实际价值，不只是纸面数据。

但速度优势需要对照定价重新理解。Gemini 3.5 Flash 的标准定价为输入 $1.5、输出 $9（每百万 token），是 Gemini 3 Flash（$0.5/$3）的三倍。Artificial Analysis 的测算显示，跑完同一套完整评测集，3.5 Flash 的综合成本是 Gemini 3 Flash 的 5.5 倍——差值不全来自定价，一半来自 Agent 任务中更长的多轮上下文导致 token 用量激增。

这意味着从 3 Flash 迁移到 3.5 Flash 时，预算估算不能简单按"价格涨三倍"来算，实际账单增幅可能更高。Google 提供 90% 的缓存折扣，这对大量复用系统提示的 Agent 架构是实质性补偿，但对每次调用上下文都不同的场景帮助有限。

相对于跨厂商竞品，价格优势是真实的：$1.5/$9 对比 GPT-5.5 的 $5/$30 和 Opus 4.7 的 $5/$25，综合到位成本确实接近三分之一。

多模态：Google 仍然是唯一的全能选手

在 DataLearner 收录的竞品对比框架中，Claude Opus 4.7、Grok 4.3 和 GPT-5.5 均只支持图像输入。Gemini 3.5 Flash 原生支持图像、视频和语音输入，这不是边缘特性，而是对需要处理非结构化多模态数据的企业场景的结构性优势。

在 Artificial Analysis 的 MMMU-Pro 多模态理解评测中，3.5 Flash 得分 84%，是当前全榜最高分，第二名是同系列的 Gemini 3.1 Pro（82%）。CharXiv Reasoning（图表理解与推理）84.2% 同样领先全场。

弱项不应被掩盖

HLE（Humanity's Last Exam，极高难度的学术推理综合题）是 3.5 Flash 的明显短板。DataLearner 收录的 40.2% 不仅是本页竞品中的最低分（Sonnet 4.6 为 49.0%，Opus 4.7 为 54.7%，GPT-5.5 为 52.2%），也低于上代 Gemini 3.0 Flash 的 43.5%——这是一个罕见的代际下滑。

Artificial Analysis 的综合智力指数（Intelligence Index）给 3.5 Flash 打了 55 分，高于 Grok 4.3（53 分）和 Claude Sonnet 4.6（52 分），但低于 Opus 4.7（57 分）和 GPT-5.5（60 分）。在分项结构上，学术推理和长文档精确召回是相对薄弱环节。

这不是挑剔。如果你的业务场景是复杂文档分析、法律条文解读、需要精确长文本推理的工作流，3.5 Flash 目前不是最优选择，应等待 3.5 Pro 或继续使用 Gemini 3.1 Pro。

谁适合用，谁应该等

适合现在切换到 3.5 Flash 的场景：
多步骤 Agent 工作流、编程辅助与代码生成、需要高吞吐量的实时交互场景、涉及图像/视频/语音输入的多模态任务、对成本敏感但不愿接受明显能力妥协的应用。

建议等待或保持现有方案的场景：
依赖高难度学术推理的研究工具（等 3.5 Pro）、对长文档精确召回要求极高的法律/合规场景（等 3.5 Pro）、仍在使用 Gemini 3.0 Flash 且 Agent 需求不强的轻量级用例（直接升级的成本回报比需要重新评估）。

代际跨度真正有多大

Gemini 3.5 Flash 的版本号从 3.0 到 3.5，时间间隔约五个月。ARC-AGI-2 数据是最直观的跨代指标：3.5 Flash 72.1%，Gemini 3.0 Flash 33.6%，提升超过 38 个百分点，几乎翻倍。Terminal Bench 2.0 的提升同样显著：76.2% vs. 3.0 Flash 的 47.6%。

这不是正常的迭代幅度。从外部信息推测，3.5 Flash 的 Agent 能力提升幅度来自训练策略的方向性调整，而非单纯的参数扩大——这与 Google 将其定位为"frontier intelligence with action"的产品叙事一致。

DataLearner 编辑判断

Gemini 3.5 Flash 是 2026 年 5 月前后性价比最优的 Agent 和编程模型，没有之一。它在旗舰对比中没有全面领先，但在速度-智力-价格三维帕累托前沿上占据了此前从未有过的位置。

Google 把这个版本定义为"一系列将前沿智力与行动力结合的模型中的第一个"——如果下个月的 3.5 Pro 延续这个方向，2026 年下半年的大模型格局可能会比现在有趣很多。

Benchmark	Gemini 3.5 FlashCurrent	Claude Sonnet 4.6	Opus 4.7	GPT-5.5
LiveBench 综合评估	75.02Thinking Level · High	75.47Thinking Level · Medium	76.91Deep Thinking Mode	80.71Deep Thinking Mode
Simple Bench 常识推理	76.70Standard Mode	--	61.70Standard Mode	69.00Standard Mode
DeepSWE 编程与软件工程	37.00Thinking Level · Medium ｜ Tools	30.00Thinking Level · High ｜ Tools	--	67.00Thinking Level · Extra High ｜ Tools
MCP-Atlas AI Agent - 工具使用	83.60Thinking Level · High ｜ Tools	69.50Standard Mode ｜ Tools	79.10Deep Thinking Mode ｜ Tools	75.30Thinking Level · Extra High ｜ Tools

Model	Supplier	Standard input	Standard output	Base price applies to
Gemini 3.5 Flash	DeepMind	$1.5 / 1M tokens	$9 / 1M tokens	—
Claude Sonnet 4.6	Anthropic	$3 / 1M tokens	$15 / 1M tokens	<= 200K
Opus 4.7	Anthropic	$5 / 1M tokens	$25 / 1M tokens	—
GPT-5.5	OpenAI	$5 / 1M tokens	$30 / 1M tokens	—

Benchmark	Gemini 3.5 FlashCurrent	Gemini 3.0 Flash	Gemini 2.5 Flash
ARC-AGI-2 综合评估	72.10Thinking Level · High ｜ Tools	33.60Thinking Enabled	--
HLE 综合评估	40.20Thinking Level · High ｜ Tools	43.50Thinking Enabled ｜ Tools	11.00Thinking Enabled
LiveBench 综合评估	75.02Thinking Level · High	72.40Thinking Level · High	47.74Thinking Level · High
Simple Bench 常识推理	76.70Standard Mode	--	41.20Standard Mode
SWE-Bench Pro - Public 编程与软件工程	55.10Thinking Level · High ｜ Tools	49.60Thinking Level · High ｜ Tools	--
TerminalBench 2.1 AI Agent - 工具使用	76.20Thinking Level · High ｜ Tools	58.00Thinking Level · High ｜ Tools	--

Gemini 3.5 Flash Benchmark Analysis

"Flash 压倒 Pro"的含义

Agent 能力：从相对弱项到行业前列

速度优势是真实的，但定价逻辑已改变

多模态：Google 仍然是唯一的全能选手

弱项不应被掩盖

谁适合用，谁应该等

代际跨度真正有多大

DataLearner 编辑判断

Benchmark Results

Benchmark Results

General Knowledge

常识推理

Coding and Software Engineer

AI Agent - Tool Usage

Competitor Comparison

Standard API Pricing: Gemini 3.5 Flash vs. Peer Models

Version History

Single-Benchmark Version Trend

Standard API Pricing Across the Gemini 3.5 Flash Series

Sources