Gemini 3.0 Flash

Benchmark Results

Gemini 3.0 Flash currently shows benchmark results led by τ²-Bench (3 / 40, score 90.20), AIME2025 (8 / 106, score 99.70), GPQA Diamond (15 / 169, score 90.40). This page also consolidates core specs, context limits, and API pricing so you can evaluate the model from benchmark results and deployment constraints together.

综合评估

4 evaluations

Benchmark / mode

Score

Rank/total

GPQA Diamond

Thinking Mode

90.40

15 / 169

HLE

Thinking Mode

33.70

49 / 136

HLE

Thinking ModeTools

43.50

28 / 136

ARC-AGI-2

Thinking Mode

33.60

18 / 49

常识问答

1 evaluations

Benchmark / mode

Score

Rank/total

SimpleQA

Thinking Mode

68.70

7 / 45

编程与软件工程

1 evaluations

Benchmark / mode

Score

Rank/total

SWE-bench Verified

Thinking Mode

68.70

51 / 97

数学推理

2 evaluations

Benchmark / mode

Score

Rank/total

AIME2025

Thinking Mode

95.20

24 / 106

AIME2025

Thinking ModeTools

99.70

8 / 106

Agent能力评测

1 evaluations

Benchmark / mode

Score

Rank/total

τ²-Bench

Thinking ModeTools

90.20

3 / 40

AI Agent - 工具使用

1 evaluations

Benchmark / mode

Score

Rank/total

Terminal Bench 2.0

Thinking ModeTools

47.60

28 / 37

OpenClaw智能体能力综合测评

2 evaluations

Benchmark / mode

Score

Rank/total

Claw Bench

Thinking ModeTools

85.70

15 / 29

Pinch Bench

Thinking ModeTools

85.20

16 / 37

View benchmark analysis Compare with other models

Gemini 3.0 Flash

Model Overview

2025 年 12 月 17 日，Google 正式发布了 Gemini 3 Flash 模型。

这是 Gemini 3 系列中的一款高性能轻量模型，目前已经在 Gemini App 以及 Google 搜索的 AI Mode 中作为默认模型上线。

从发布方式来看，Gemini 3 Flash 并不是一个只面向开发者的补充型号，而是一开始就被放在了用户规模最大、调用频率最高的位置上。这也意味着，Google 对它的定位并不是“便宜版本”，而是一个可以长期承担主力任务的模型。

一、Gemini 3 Flash 是一个什么定位的模型？

在 Gemini 体系里，Flash 一直代表的是“更快、更便宜、更适合大规模使用”。

但到了 Gemini 3 这一代，这条线的定位发生了一些变化。

Gemini 3 Flash 的目标不再只是“能用”，而是在保证速度和成本优势的同时，把能力尽量拉近 Pro 级模型。换句话说，它希望覆盖的是：

日常对话和问答
长上下文理解
实际可落地的编程与 Agent 任务

而不是只作为 Pro 的降级替代。

二、核心技术参数（基础信息一次说清楚）

在技术规格上，Gemini 3 Flash 给得相当充分，这也是它能被直接用作默认模型的基础。

上下文能力

Gemini 3 Flash 支持 最多 100 万 token 的输入上下文，以及 64k token 的输出长度。

这使得它在长文档分析、代码仓库理解、多轮复杂对话等场景中，不再需要频繁切分输入。

知识更新

模型的知识截止时间为 2025 年 1 月，属于目前较新的水平，能够覆盖最近一年的技术与产品变化。

API 层模型标识

当前对外提供的模型 ID 为 gemini-3-flash-preview，处于 Preview 状态，但已经在多个核心产品中实际使用。

成本与调用定位

相较于 Pro 级模型，Gemini 3 Flash 的输入和输出成本明显更低，设计目标就是支持高频调用，而不是只在关键节点使用。

推理深度可控

模型支持通过参数控制推理强度，在“尽量快”和“更稳一点”之间切换。这让同一个模型可以适配不同复杂度的任务，而不必频繁更换模型。

三、相对上一代 Flash，真正变强的地方在哪？

如果只是速度提升，其实不足以支撑它成为默认模型。

Gemini 3 Flash 的变化，更多体现在整体能力结构上。

推理能力更接近 Pro

在多步骤问题、复杂问答、逻辑分析等场景中，Gemini 3 Flash 给出的回答已经很难被直观区分为“轻量模型”。

很多时候，它的输出质量已经足够让人不再纠结是否需要切换到 Pro。

编程与 Agent 场景明显加强

在真实的编码任务中，Gemini 3 Flash 更偏向“能把任务跑完”，而不是只给思路或片段建议。

在多轮修改、上下文保持和工具配合上，稳定性比上一代 Flash 有明显提升。

性能与延迟更稳定

即使在推理强度提高的情况下，整体响应时间仍然控制得比较好，这也是它能够被用于搜索和高频交互场景的重要前提。

四、实测与使用反馈反映出的共识

从公开测试结果和开发者的实际反馈来看，Gemini 3 Flash 有一个很明显的特征：

它不是那种“某一项特别亮眼”的模型，而是一个长期使用时不容易成为短板的模型。

比较常见的反馈包括：

响应速度稳定，不容易出现明显抖动
长上下文任务中信息保持较完整
多模态理解偏实用，适合做信息提取和判断
在高频调用场景下，成本更容易控制

也正因为这些特点，越来越多的 Agent 系统开始把它作为默认执行模型，而不是只在兜底或低价值场景中使用。

五、那 Gemini 3 Flash 适合用在什么地方？

简单来说，如果你希望一个模型既够快，又不太容易出问题，Gemini 3 Flash 是一个很合适的默认选择。

它尤其适合用在：

日常对话和问答类产品
需要处理大量上下文的文档或代码任务
对成本和延迟敏感，但又不希望能力明显下降的 Agent 场景

它并不追求极限能力，而是把速度、成本和回答质量放在一个相对均衡的位置上。

对大多数真实业务来说，这种选择反而更省心。

六、什么时候不太适合用 Gemini 3 Flash？

当然，它也不是万能的。

如果你的任务是：

极端复杂、长链路的形式化推理
对每一步逻辑正确性要求极高、几乎没有容错空间
明确以“深度思考优先，而不是速度优先”为目标

那么使用更高规格、更慢但推理更激进的模型，仍然是更稳妥的选择。

七、总结

Gemini 3 Flash 的意义，并不在于某一个单项分数，而在于它重新定义了“默认模型”应有的能力下限。

在 2025 年 12 月 17 日 这个时间点，Google 给出的答案是：
默认选项不一定意味着妥协，也可以是一个足够强、足够快、同时又适合大规模使用的主力模型。

--------------以下是旧的传闻，2025年12月17日发布-----------------------

2025年10月初，网络盛传Google即将发布Gemini 3.0模型，根据谷歌的模型系列，应该会包含2个版本，分别是Gemini 3.0 Pro和Gemini 3.0 Flash。2025年10月19日，LMAreana上出现了几个神秘模型，从回答中可以看到明显是Google发布的模型，大家普遍认为这些模型就是Gemini 3.0。

其中：

lithiumflow = Gemini 3.0 Pro (no Grounding w/ Google Search)

orionmist = Gemini 3.0 Pro (Grounding w/ Google Search)

Modality	Input	Output
Text	$0.5	$3
Image	$0.5	--
Audio	$1	--
Video	$0.5	--

Modality	Input cache	Output cache
Text	$0.05	--
Image	$0.05	--
Audio	$0.1	--
Video	$0.05	--

Gemini 3.0 Flash

Model basics

Open source & experience

Official resources

API details

Benchmark Results

综合评估

常识问答

编程与软件工程

数学推理

Agent能力评测

AI Agent - 工具使用

OpenClaw智能体能力综合测评

Publisher

Model Overview

一、Gemini 3 Flash 是一个什么定位的模型？

二、核心技术参数（基础信息一次说清楚）

三、相对上一代 Flash，真正变强的地方在哪？

四、实测与使用反馈反映出的共识

五、那 Gemini 3 Flash 适合用在什么地方？

六、什么时候不太适合用 Gemini 3 Flash？

七、总结

DataLearner 官方微信