Gemini 3.0 FlashvsGemini 2.5 Flash

在 8 个共同 benchmark 中，Gemini 3.0 Flash 整体领先：Gemini 3.0 Flash 领先 7 项，Gemini 2.5 Flash 领先 0 项，持平 1 项，平均分差 +18.93。

Google Deep Mind · 2025-12-17 · 聊天大模型

Google Deep Mind · 2025-04-17 · 推理大模型

Gemini 3.0 Flash7 项(88%)持平1(0%)0 项Gemini 2.5 Flash

评测分数

按能力类目分组，每组内按分差大小排列；共 8 项。

Gemini 3.0 Flash 领先 3/3

评测项	Gemini 3.0 Flash	Gemini 2.5 Flash	分差
HLE	43.5040 / 161	11131 / 161	+32.50
LiveBench	56.3579 / 115Normal (No Tools)	47.74101 / 115Thinking High (No Tools)	+8.61
GPQA Diamond	90.4018 / 179	82.8063 / 179	+7.60

Gemini 3.0 Flash 领先 1/2

评测项	Gemini 3.0 Flash	Gemini 2.5 Flash	分差
AIME2025	99.708 / 106	7270 / 106	+27.70
FrontierMath - Tier 4	4.2040 / 80Normal (No Tools)	4.2040 / 80Normal (No Tools)	持平

Gemini 3.0 Flash 领先 1/1

评测项	Gemini 3.0 Flash	Gemini 2.5 Flash	分差
Pinch Bench	85.2016 / 37Thinking (With Tools)	70.7031 / 37Thinking (With Tools)	+14.50

Gemini 3.0 Flash 领先 1/1

评测项	Gemini 3.0 Flash	Gemini 2.5 Flash	分差
SWE-bench Verified	68.7062 / 108	5090 / 108	+18.70

Gemini 3.0 Flash 领先 1/1

评测项	Gemini 3.0 Flash	Gemini 2.5 Flash	分差
SimpleQA	68.707 / 45	26.9027 / 45	+41.80

Gemini 3.0 Flash在以下类目领先:General Knowledge (3/3)、Math and Reasoning (1/2)、Claw-style Agent Evaluation (1/1)、Coding and Software Engineer (1/1)、Common Sense (1/1)

8 个共同 benchmark 上，Gemini 3.0 Flash 平均高出 18.93 分。

单项差距最大的 benchmark：SimpleQA — Gemini 3.0 Flash 68.70，Gemini 2.5 Flash 26.90（分差 +41.80）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。