Gemini 3.0 FlashvsGemini 2.5 Flash

在 8 个共同 benchmark 中,Gemini 3.0 Flash 整体领先:Gemini 3.0 Flash 领先 7 项,Gemini 2.5 Flash 领先 0 项,持平 1 项,平均分差 +18.93。

Google Deep Mind
Gemini 3.0 Flash

Google Deep Mind · 2025-12-17 · 聊天大模型

Google Deep Mind
Gemini 2.5 Flash

Google Deep Mind · 2025-04-17 · 推理大模型

Gemini 3.0 Flash7 (88%)持平1(0%)0 Gemini 2.5 Flash

评测分数

按能力类目分组,每组内按分差大小排列;共 8 项。

General Knowledge

Gemini 3.0 Flash 领先 3/3
评测项Gemini 3.0 FlashGemini 2.5 Flash分差
HLE43.5040 / 16111131 / 161+32.50
LiveBench56.3579 / 115Normal (No Tools)47.74101 / 115Thinking High (No Tools)+8.61
GPQA Diamond90.4018 / 17982.8063 / 179+7.60

Math and Reasoning

Gemini 3.0 Flash 领先 1/2
评测项Gemini 3.0 FlashGemini 2.5 Flash分差
AIME202599.708 / 1067270 / 106+27.70
FrontierMath - Tier 44.2040 / 80Normal (No Tools)4.2040 / 80Normal (No Tools)持平

Claw-style Agent Evaluation

Gemini 3.0 Flash 领先 1/1
评测项Gemini 3.0 FlashGemini 2.5 Flash分差
Pinch Bench85.2016 / 37Thinking (With Tools)70.7031 / 37Thinking (With Tools)+14.50

Coding and Software Engineer

Gemini 3.0 Flash 领先 1/1
评测项Gemini 3.0 FlashGemini 2.5 Flash分差
SWE-bench Verified68.7062 / 1085090 / 108+18.70

Common Sense

Gemini 3.0 Flash 领先 1/1
评测项Gemini 3.0 FlashGemini 2.5 Flash分差
SimpleQA68.707 / 4526.9027 / 45+41.80

规格对比

字段Gemini 3.0 FlashGemini 2.5 Flash
发布机构Google Deep MindGoogle Deep Mind
发布时间2025-12-172025-04-17
模型类型聊天大模型推理大模型
架构稠密模型稠密模型
参数规模暂无数据暂无数据
上下文长度2000K1000K
最大输出64K64K

小结

  • Gemini 3.0 Flash在以下类目领先:General Knowledge (3/3)、Math and Reasoning (1/2)、Claw-style Agent Evaluation (1/1)、Coding and Software Engineer (1/1)、Common Sense (1/1)

8 个共同 benchmark 上,Gemini 3.0 Flash 平均高出 18.93 分。

单项差距最大的 benchmark:SimpleQA — Gemini 3.0 Flash 68.70,Gemini 2.5 Flash 26.90(分差 +41.80)。

本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。