Gemini 3.5 Flash 是 Google 第一次让 Flash 系列在编程和 Agent 基准上正面碾压自家 Pro 模型。它的意义不在于"便宜的凑合选择",而在于重新定义了什么叫"旗舰速度级模型"。代价是:价格是上代 Flash 的三倍,学术推理能力在同价位竞品中垫底。
"Flash 压倒 Pro"的含义
Gemini 系列历来的分工逻辑是:Pro 负责能力天花板,Flash 负责速度与成本。3.5 Flash 打破了这个分工。
在 Terminal Bench 2.1 上,3.5 Flash 得分 76.2%,而 Gemini 3.1 Pro 仅为 70.3%——一个轻量版本在代码基准上领先自家旗舰整整 6 个百分点。这在 Gemini 系列历史上是第一次。MCP Atlas(模型调用工具的能力评测)结果类似,3.5 Flash 以 83.6% 超过 3.1 Pro 的 78.2%。
这意味着:如果你的工作负载是编程辅助或 Agent 任务,等待下个月 3.5 Pro 上线再做决策,不一定比现在直接用 3.5 Flash 更明智。
Agent 能力:从相对弱项到行业前列
Gemini 系列长期在 Agent 能力上落后于 Claude 和 GPT。3.5 Flash 是一次实质性扭转。
第三方独立测评机构 Artificial Analysis 的 GDPval-AA(真实世界多步骤 Agent 任务)显示,3.5 Flash 达到 1656 Elo,而 Gemini 3.0 Flash 仅 1204、Gemini 3.1 Pro 仅 1314。单次迭代的 Elo 跃升幅度超过了 3 Flash 到 3.1 Pro 的整个代际提升。从 DataLearner 收录的 OSWorld-Verified 数据看,78.4% 的得分已与 Anthropic Opus 4.7(78.0%)持平,仅小幅落后于 GPT-5.5(78.7%)。
幻觉率是 Agent 能力的重要支撑指标。Artificial Analysis 的 AA-Omniscience 评测显示,3.5 Flash 的幻觉率从 Gemini 3 Flash 的 92% 大幅下降至 61%,降幅达 31 个百分点。幻觉率的下降直接提高了多轮工具调用的可靠性——这是 Agent 场景的核心诉求。
速度优势是真实的,但定价逻辑已改变
3.5 Flash 的输出速度超过每秒 280 个 token,是 GPT-5.5 和 Opus 4.7(约 60–70 token/秒)的四倍。这个速度差距在实时交互场景和高并发 Agent 调度中具有实际价值,不只是纸面数据。
但速度优势需要对照定价重新理解。Gemini 3.5 Flash 的标准定价为输入 $1.5、输出 $9(每百万 token),是 Gemini 3 Flash($0.5/$3)的三倍。Artificial Analysis 的测算显示,跑完同一套完整评测集,3.5 Flash 的综合成本是 Gemini 3 Flash 的 5.5 倍——差值不全来自定价,一半来自 Agent 任务中更长的多轮上下文导致 token 用量激增。
这意味着从 3 Flash 迁移到 3.5 Flash 时,预算估算不能简单按"价格涨三倍"来算,实际账单增幅可能更高。Google 提供 90% 的缓存折扣,这对大量复用系统提示的 Agent 架构是实质性补偿,但对每次调用上下文都不同的场景帮助有限。
相对于跨厂商竞品,价格优势是真实的:$1.5/$9 对比 GPT-5.5 的 $5/$30 和 Opus 4.7 的 $5/$25,综合到位成本确实接近三分之一。
多模态:Google 仍然是唯一的全能选手
在 DataLearner 收录的竞品对比框架中,Claude Opus 4.7、Grok 4.3 和 GPT-5.5 均只支持图像输入。Gemini 3.5 Flash 原生支持图像、视频和语音输入,这不是边缘特性,而是对需要处理非结构化多模态数据的企业场景的结构性优势。
在 Artificial Analysis 的 MMMU-Pro 多模态理解评测中,3.5 Flash 得分 84%,是当前全榜最高分,第二名是同系列的 Gemini 3.1 Pro(82%)。CharXiv Reasoning(图表理解与推理)84.2% 同样领先全场。
弱项不应被掩盖
HLE(Humanity's Last Exam,极高难度的学术推理综合题)是 3.5 Flash 的明显短板。DataLearner 收录的 40.2% 不仅是本页竞品中的最低分(Sonnet 4.6 为 49.0%,Opus 4.7 为 54.7%,GPT-5.5 为 52.2%),也低于上代 Gemini 3.0 Flash 的 43.5%——这是一个罕见的代际下滑。
Artificial Analysis 的综合智力指数(Intelligence Index)给 3.5 Flash 打了 55 分,高于 Grok 4.3(53 分)和 Claude Sonnet 4.6(52 分),但低于 Opus 4.7(57 分)和 GPT-5.5(60 分)。在分项结构上,学术推理和长文档精确召回是相对薄弱环节。
这不是挑剔。如果你的业务场景是复杂文档分析、法律条文解读、需要精确长文本推理的工作流,3.5 Flash 目前不是最优选择,应等待 3.5 Pro 或继续使用 Gemini 3.1 Pro。
谁适合用,谁应该等
适合现在切换到 3.5 Flash 的场景:
多步骤 Agent 工作流、编程辅助与代码生成、需要高吞吐量的实时交互场景、涉及图像/视频/语音输入的多模态任务、对成本敏感但不愿接受明显能力妥协的应用。
建议等待或保持现有方案的场景:
依赖高难度学术推理的研究工具(等 3.5 Pro)、对长文档精确召回要求极高的法律/合规场景(等 3.5 Pro)、仍在使用 Gemini 3.0 Flash 且 Agent 需求不强的轻量级用例(直接升级的成本回报比需要重新评估)。
代际跨度真正有多大
Gemini 3.5 Flash 的版本号从 3.0 到 3.5,时间间隔约五个月。ARC-AGI-2 数据是最直观的跨代指标:3.5 Flash 72.1%,Gemini 3.0 Flash 33.6%,提升超过 38 个百分点,几乎翻倍。Terminal Bench 2.0 的提升同样显著:76.2% vs. 3.0 Flash 的 47.6%。
这不是正常的迭代幅度。从外部信息推测,3.5 Flash 的 Agent 能力提升幅度来自训练策略的方向性调整,而非单纯的参数扩大——这与 Google 将其定位为"frontier intelligence with action"的产品叙事一致。
DataLearner 编辑判断
Gemini 3.5 Flash 是 2026 年 5 月前后性价比最优的 Agent 和编程模型,没有之一。它在旗舰对比中没有全面领先,但在速度-智力-价格三维帕累托前沿上占据了此前从未有过的位置。
Google 把这个版本定义为"一系列将前沿智力与行动力结合的模型中的第一个"——如果下个月的 3.5 Pro 延续这个方向,2026 年下半年的大模型格局可能会比现在有趣很多。