Gemini 3.0 FlashvsGemini 2.0 Flash Experimental

在 5 个共同 benchmark 中,Gemini 3.0 Flash 整体领先:Gemini 3.0 Flash 领先 5 项,Gemini 2.0 Flash Experimental 领先 0 项,持平 0 项,平均分差 +43.94。

Google Deep Mind
Gemini 3.0 Flash

Google Deep Mind · 2025-12-17 · 聊天大模型

DeepMind
Gemini 2.0 Flash Experimental

DeepMind · 2024-12-11 · 多模态大模型

Gemini 3.0 Flash5 (100%)(0%)0 Gemini 2.0 Flash Experimental

评测分数

按能力类目分组,每组内按分差大小排列;共 5 项。

General Knowledge

Gemini 3.0 Flash 领先 2/2
评测项Gemini 3.0 FlashGemini 2.0 Flash Experimental分差
HLE43.5040 / 1615.10156 / 161+38.40
GPQA Diamond90.4018 / 17965.20130 / 179+25.20

Coding and Software Engineer

Gemini 3.0 Flash 领先 1/1
评测项Gemini 3.0 FlashGemini 2.0 Flash Experimental分差
SWE-bench Verified68.7062 / 10821.40108 / 108+47.30

Common Sense

Gemini 3.0 Flash 领先 1/1
评测项Gemini 3.0 FlashGemini 2.0 Flash Experimental分差
SimpleQA68.707 / 4529.9023 / 45+38.80

Math and Reasoning

Gemini 3.0 Flash 领先 1/1
评测项Gemini 3.0 FlashGemini 2.0 Flash Experimental分差
AIME202599.708 / 10629.70100 / 106+70

规格对比

字段Gemini 3.0 FlashGemini 2.0 Flash Experimental
发布机构Google Deep MindDeepMind
发布时间2025-12-172024-12-11
模型类型聊天大模型多模态大模型
架构稠密模型稠密模型
参数规模暂无数据暂无数据
上下文长度2000K1000K
最大输出64K暂无数据

小结

  • Gemini 3.0 Flash在以下类目领先:General Knowledge (2/2)、Coding and Software Engineer (1/1)、Common Sense (1/1)、Math and Reasoning (1/1)

5 个共同 benchmark 上,Gemini 3.0 Flash 平均高出 43.94 分。

单项差距最大的 benchmark:AIME2025 — Gemini 3.0 Flash 99.70,Gemini 2.0 Flash Experimental 29.70(分差 +70)。

本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。