Gemini 3.5 Flash 是 Google 第一次让 Flash 系列在编程和 Agent 基准上正面碾压自家 Pro 模型。它的意义不在于"便宜的凑合选择"，而在于重新定义了什么叫"旗舰速度级模型"。代价是：价格是上代 Flash 的三倍，学术推理能力在同价位竞品中垫底。

"Flash 压倒 Pro"的含义

Gemini 系列历来的分工逻辑是：Pro 负责能力天花板，Flash 负责速度与成本。3.5 Flash 打破了这个分工。

在 Terminal Bench 2.1 上，3.5 Flash 得分 76.2%，而 Gemini 3.1 Pro 仅为 70.3%——一个轻量版本在代码基准上领先自家旗舰整整 6 个百分点。这在 Gemini 系列历史上是第一次。MCP Atlas（模型调用工具的能力评测）结果类似，3.5 Flash 以 83.6% 超过 3.1 Pro 的 78.2%。

这意味着：如果你的工作负载是编程辅助或 Agent 任务，等待下个月 3.5 Pro 上线再做决策，不一定比现在直接用 3.5 Flash 更明智。

Agent 能力：从相对弱项到行业前列

Gemini 系列长期在 Agent 能力上落后于 Claude 和 GPT。3.5 Flash 是一次实质性扭转。

第三方独立测评机构 Artificial Analysis 的 GDPval-AA（真实世界多步骤 Agent 任务）显示，3.5 Flash 达到 1656 Elo，而 Gemini 3.0 Flash 仅 1204、Gemini 3.1 Pro 仅 1314。单次迭代的 Elo 跃升幅度超过了 3 Flash 到 3.1 Pro 的整个代际提升。从 DataLearner 收录的 OSWorld-Verified 数据看，78.4% 的得分已与 Anthropic Opus 4.7（78.0%）持平，仅小幅落后于 GPT-5.5（78.7%）。

幻觉率是 Agent 能力的重要支撑指标。Artificial Analysis 的 AA-Omniscience 评测显示，3.5 Flash 的幻觉率从 Gemini 3 Flash 的 92% 大幅下降至 61%，降幅达 31 个百分点。幻觉率的下降直接提高了多轮工具调用的可靠性——这是 Agent 场景的核心诉求。

速度优势是真实的，但定价逻辑已改变

3.5 Flash 的输出速度超过每秒 280 个 token，是 GPT-5.5 和 Opus 4.7（约 60–70 token/秒）的四倍。这个速度差距在实时交互场景和高并发 Agent 调度中具有实际价值，不只是纸面数据。

但速度优势需要对照定价重新理解。Gemini 3.5 Flash 的标准定价为输入 $1.5、输出 $9（每百万 token），是 Gemini 3 Flash（$0.5/$3）的三倍。Artificial Analysis 的测算显示，跑完同一套完整评测集，3.5 Flash 的综合成本是 Gemini 3 Flash 的 5.5 倍——差值不全来自定价，一半来自 Agent 任务中更长的多轮上下文导致 token 用量激增。

这意味着从 3 Flash 迁移到 3.5 Flash 时，预算估算不能简单按"价格涨三倍"来算，实际账单增幅可能更高。Google 提供 90% 的缓存折扣，这对大量复用系统提示的 Agent 架构是实质性补偿，但对每次调用上下文都不同的场景帮助有限。

相对于跨厂商竞品，价格优势是真实的：$1.5/$9 对比 GPT-5.5 的 $5/$30 和 Opus 4.7 的 $5/$25，综合到位成本确实接近三分之一。

多模态：Google 仍然是唯一的全能选手

在 DataLearner 收录的竞品对比框架中，Claude Opus 4.7、Grok 4.3 和 GPT-5.5 均只支持图像输入。Gemini 3.5 Flash 原生支持图像、视频和语音输入，这不是边缘特性，而是对需要处理非结构化多模态数据的企业场景的结构性优势。

在 Artificial Analysis 的 MMMU-Pro 多模态理解评测中，3.5 Flash 得分 84%，是当前全榜最高分，第二名是同系列的 Gemini 3.1 Pro（82%）。CharXiv Reasoning（图表理解与推理）84.2% 同样领先全场。

弱项不应被掩盖

HLE（Humanity's Last Exam，极高难度的学术推理综合题）是 3.5 Flash 的明显短板。DataLearner 收录的 40.2% 不仅是本页竞品中的最低分（Sonnet 4.6 为 49.0%，Opus 4.7 为 54.7%，GPT-5.5 为 52.2%），也低于上代 Gemini 3.0 Flash 的 43.5%——这是一个罕见的代际下滑。

Artificial Analysis 的综合智力指数（Intelligence Index）给 3.5 Flash 打了 55 分，高于 Grok 4.3（53 分）和 Claude Sonnet 4.6（52 分），但低于 Opus 4.7（57 分）和 GPT-5.5（60 分）。在分项结构上，学术推理和长文档精确召回是相对薄弱环节。

这不是挑剔。如果你的业务场景是复杂文档分析、法律条文解读、需要精确长文本推理的工作流，3.5 Flash 目前不是最优选择，应等待 3.5 Pro 或继续使用 Gemini 3.1 Pro。

谁适合用，谁应该等

适合现在切换到 3.5 Flash 的场景：
多步骤 Agent 工作流、编程辅助与代码生成、需要高吞吐量的实时交互场景、涉及图像/视频/语音输入的多模态任务、对成本敏感但不愿接受明显能力妥协的应用。

建议等待或保持现有方案的场景：
依赖高难度学术推理的研究工具（等 3.5 Pro）、对长文档精确召回要求极高的法律/合规场景（等 3.5 Pro）、仍在使用 Gemini 3.0 Flash 且 Agent 需求不强的轻量级用例（直接升级的成本回报比需要重新评估）。

代际跨度真正有多大

Gemini 3.5 Flash 的版本号从 3.0 到 3.5，时间间隔约五个月。ARC-AGI-2 数据是最直观的跨代指标：3.5 Flash 72.1%，Gemini 3.0 Flash 33.6%，提升超过 38 个百分点，几乎翻倍。Terminal Bench 2.0 的提升同样显著：76.2% vs. 3.0 Flash 的 47.6%。

这不是正常的迭代幅度。从外部信息推测，3.5 Flash 的 Agent 能力提升幅度来自训练策略的方向性调整，而非单纯的参数扩大——这与 Google 将其定位为"frontier intelligence with action"的产品叙事一致。

DataLearner 编辑判断

Gemini 3.5 Flash 是 2026 年 5 月前后性价比最优的 Agent 和编程模型，没有之一。它在旗舰对比中没有全面领先，但在速度-智力-价格三维帕累托前沿上占据了此前从未有过的位置。

Google 把这个版本定义为"一系列将前沿智力与行动力结合的模型中的第一个"——如果下个月的 3.5 Pro 延续这个方向，2026 年下半年的大模型格局可能会比现在有趣很多。

评测项	Gemini 3.5 Flash当前	Claude Sonnet 4.6	Opus 4.7	GPT-5.5
LiveBench 综合评估	75.02思考水平·高	75.47思考水平·中	76.91深度思考模式	80.71深度思考模式
Simple Bench 常识推理	76.70常规模式	--	61.70常规模式	69.00常规模式
DeepSWE 编程与软件工程	37.00思考水平·中｜工具	30.00思考水平·高｜工具	--	67.00思考水平·极高｜工具
MCP-Atlas AI Agent - 工具使用	83.60思考水平·高｜工具	69.50常规模式｜工具	79.10深度思考模式｜工具	75.30思考水平·极高｜工具

模型	供应商	标准输入	标准输出	标准价适用于
Gemini 3.5 Flash	DeepMind	$1.5 / 1M tokens	$9 / 1M tokens	—
Claude Sonnet 4.6	Anthropic	$3 / 1M tokens	$15 / 1M tokens	<= 200K
Opus 4.7	Anthropic	$5 / 1M tokens	$25 / 1M tokens	—
GPT-5.5	OpenAI	$5 / 1M tokens	$30 / 1M tokens	—

评测项	Gemini 3.5 Flash当前	Gemini 3.0 Flash	Gemini 2.5 Flash
ARC-AGI-2 综合评估	72.10思考水平·高｜工具	33.60开启思考	--
HLE 综合评估	40.20思考水平·高｜工具	43.50开启思考｜工具	11.00开启思考
LiveBench 综合评估	75.02思考水平·高	72.40思考水平·高	47.74思考水平·高
Simple Bench 常识推理	76.70常规模式	--	41.20常规模式
SWE-Bench Pro - Public 编程与软件工程	55.10思考水平·高｜工具	49.60思考水平·高｜工具	--
TerminalBench 2.1 AI Agent - 工具使用	76.20思考水平·高｜工具	58.00思考水平·高｜工具	--

Gemini 3.5 Flash 评测深度分析

"Flash 压倒 Pro"的含义

Agent 能力：从相对弱项到行业前列

速度优势是真实的，但定价逻辑已改变

多模态：Google 仍然是唯一的全能选手

弱项不应被掩盖

谁适合用，谁应该等

代际跨度真正有多大

DataLearner 编辑判断

评测结果

评测结果

综合评估

常识推理

编程与软件工程

AI Agent - 工具使用

竞品对比

Gemini 3.5 Flash 与同类模型的标准 API 价格对比

历代版本对比

单评测历史趋势图

Gemini 3.5 Flash 所在系列的标准 API 价格对比

数据来源