热门大模型对比：Gemini 3.0 Flash 与上一代Gemini 2.5 Pro和Gemini 3.0 Pro对比

Gemini 3.0 Flash 在本组对比中定位为低成本模型，其输入与输出价格明显低于 Gemini 3.0 Pro (Preview) 及 Gemini 2.5 Pro。从评测结果来看，Gemini 3.0 Flash 在多项通用能力与任务型基准中取得了与其价格水平不相称的得分表现。在 GPQA Diamond、HLE、SimpleQA 等知识与问答相关基准中，其成绩整体高于 Gemini 2.5 Pro，显示出新一代 Flash 模型在通用理解能力上的提升。同时，在 Terminal Bench 2.0 与 SWE-bench Verified 等偏工具使用与工程能力的基准中，Gemini 3.0 Flash 的表现与 Gemini 2.5 Pro 接近或略高，说明其在实际系统集成与自动化场景中具备可用性基础。

在数学推理相关评测中，Gemini 3.0 Flash 在 AIME2025 基准上取得了该组模型中的较高分数，体现出其在特定推理任务上的能力峰值。尽管这一优势并不能完全代表其在所有复杂推理任务中的稳定性，但从对比结果看，Gemini 3.0 Flash 已具备在部分高难度任务中达到或接近高端模型水平的能力。

从整体表现来看，Gemini 3.0 Flash 的综合得分略低于 Gemini 3.0 Pro (Preview)，后者在平均分与多项 Agent、工具使用相关基准中仍保持领先。然而，在显著降低成本的前提下，Gemini 3.0 Flash 在整体性能上已超越 Gemini 2.5 Pro，并在部分单项评测中表现突出。结合价格、上下文长度以及评测结果，Gemini 3.0 Flash 在本次对比中更适合作为高频调用或默认使用模型，而 Gemini 3.0 Pro (Preview) 则更适合用于对综合能力要求较高的场景。

Benchmark	Gemini 3.0 Flash	Gemini 3.0 Pro (Preview 11-2025)	Gemini 2.5-Pro
ARC-AGI-2 综合评估	33.60Thinking Enabled	31.10Thinking Enabled	4.90Thinking Enabled
GPQA Diamond 综合评估	90.40Thinking Enabled	91.90Thinking Enabled	86.40Thinking Enabled
HLE 综合评估	43.50Thinking Enabled ｜ Tools	45.80Thinking Level · High ｜ Tools	21.60Thinking Enabled
LiveBench 综合评估	72.40Thinking Level · High	73.39Thinking Level · High	58.33Thinking Level · High
SimpleQA 常识问答	68.70Thinking Enabled	72.10Thinking Enabled	54.00Standard Mode
SWE-bench Verified 编程与软件工程	68.70Thinking Enabled	76.20Thinking Enabled	67.20Thinking Enabled
AIME2025 数学推理	99.70Thinking Enabled ｜ Tools	95.00Thinking Enabled	88.00Thinking Enabled
FrontierMath - Tier 4 数学推理	4.20Standard Mode	18.80Thinking Enabled	2.10Standard Mode
τ²-Bench Agent能力评测	90.20Thinking Enabled ｜ Tools	85.40Thinking Enabled ｜ Tools	--
MCP-Atlas AI Agent - 工具使用	62.00Standard Mode ｜ Tools	70.30Standard Mode ｜ Tools	--
Terminal Bench 2.0 AI Agent - 工具使用	47.60Thinking Enabled ｜ Tools	56.90Thinking Level · High ｜ Tools	32.60Thinking Enabled ｜ Tools
Pinch Bench OpenClaw智能体能力综合测评	85.20Thinking Enabled ｜ Tools	70.70Thinking Enabled ｜ Tools	--

Benchmark

Gemini 3.0 Flash

Gemini 3.0 Pro (Preview 11-2025)

Gemini 2.5-Pro

ARC-AGI-2

综合评估

33.60Thinking Enabled

31.10Thinking Enabled

4.90Thinking Enabled

GPQA Diamond

综合评估

90.40Thinking Enabled

91.90Thinking Enabled

86.40Thinking Enabled

HLE

综合评估

43.50Thinking Enabled ｜ Tools

45.80Thinking Level · High ｜ Tools

21.60Thinking Enabled

LiveBench

综合评估

72.40Thinking Level · High

73.39Thinking Level · High

58.33Thinking Level · High

SimpleQA

常识问答

68.70Thinking Enabled

72.10Thinking Enabled

54.00Standard Mode

SWE-bench Verified

编程与软件工程

68.70Thinking Enabled

76.20Thinking Enabled

67.20Thinking Enabled

AIME2025

数学推理

99.70Thinking Enabled ｜ Tools

95.00Thinking Enabled

88.00Thinking Enabled

FrontierMath - Tier 4

数学推理

4.20Standard Mode

18.80Thinking Enabled

2.10Standard Mode

τ²-Bench

Agent能力评测

90.20Thinking Enabled ｜ Tools

85.40Thinking Enabled ｜ Tools

MCP-Atlas

AI Agent - 工具使用

62.00Standard Mode ｜ Tools

70.30Standard Mode ｜ Tools

Terminal Bench 2.0

AI Agent - 工具使用

47.60Thinking Enabled ｜ Tools

56.90Thinking Level · High ｜ Tools

32.60Thinking Enabled ｜ Tools

Pinch Bench

OpenClaw智能体能力综合测评

85.20Thinking Enabled ｜ Tools

70.70Thinking Enabled ｜ Tools

Detailed feature breakdown

Licensing, MoE architecture, and multi-modality support.

Features & specs	Gemini 3.0 FlashGoogle Deep Mind	Gemini 3.0 Pro (Preview 11-2025)Google Deep Mind	Gemini 2.5-ProGoogle Deep Mind
Core specsRelease	2025-12-17	2025-11-18	2025-06-05
Context length	2000K	1000K	1000K
Max output	65536	65536	65536
MoE	No	No	No
Supported modes	常规模式（Non-Thinking Mode）思考模式（Thinking Mode）深度思考（Deeper Thinking Mode）	常规模式（Non-Thinking Mode）思考模式（Thinking Mode）深度思考（Deeper Thinking Mode）	常规模式（Non-Thinking Mode）思考模式（Thinking Mode）深度思考（Deeper Thinking Mode）
LicenseCode Open Source	Not provided	Not provided	Not provided
Weights Open Source	Not provided	Not provided	Not provided
Commercial use	不开源	不开源	不开源
Modality supportText Input/Output	/	/	/
Image Input/Output	/	/	/
Audio Input/Output	/	/	Not provided
Video Input/Output	/	/	Not provided
ResourcesPaper / report	Gemini 3 Flash: frontier intelligence built for speed	A new era of intelligence with Gemini 3	Try the latest Gemini 2.5 Pro before general availability.
DataLearner blog	Gemini 3 Flash：Google 在 12 月 17 日发布的新一代默认模型	大模型新王者！谷歌发布Gemini 3.0 Pro，各方面评测几乎都是第一，全球首个大模型匿名投票得分超1500分的模型，支持100万输入上下文！	Google发布Gemini 2.5 Pro: Gemini系列第一个2.5版本的模型，最高支持200万上下文，全模态输入，推理大模型，LMArena排名第一

Gemini 3.0 Flash 与上一代Gemini 2.5 Pro和Gemini 3.0 Pro对比

Capability profile

Performance benchmarks

Benchmark score table

API price comparison

Detailed feature breakdown