Gemini 3.0 FlashvsGemini 2.0 Flash Experimental

在 5 个共同 benchmark 中，Gemini 3.0 Flash 整体领先：Gemini 3.0 Flash 领先 5 项，Gemini 2.0 Flash Experimental 领先 0 项，持平 0 项，平均分差 +43.94。

Google Deep Mind · 2025-12-17 · 聊天大模型

DeepMind · 2024-12-11 · 多模态大模型

Gemini 3.0 Flash5 项(100%)(0%)0 项Gemini 2.0 Flash Experimental

评测分数

按能力类目分组，每组内按分差大小排列；共 5 项。

Gemini 3.0 Flash 领先 2/2

评测项	Gemini 3.0 Flash	Gemini 2.0 Flash Experimental	分差
HLE	43.5040 / 161	5.10156 / 161	+38.40
GPQA Diamond	90.4018 / 179	65.20130 / 179	+25.20

Gemini 3.0 Flash 领先 1/1

评测项	Gemini 3.0 Flash	Gemini 2.0 Flash Experimental	分差
SWE-bench Verified	68.7062 / 108	21.40108 / 108	+47.30

Gemini 3.0 Flash 领先 1/1

评测项	Gemini 3.0 Flash	Gemini 2.0 Flash Experimental	分差
SimpleQA	68.707 / 45	29.9023 / 45	+38.80

Gemini 3.0 Flash 领先 1/1

评测项	Gemini 3.0 Flash	Gemini 2.0 Flash Experimental	分差
AIME2025	99.708 / 106	29.70100 / 106	+70

Gemini 3.0 Flash在以下类目领先:General Knowledge (2/2)、Coding and Software Engineer (1/1)、Common Sense (1/1)、Math and Reasoning (1/1)

5 个共同 benchmark 上，Gemini 3.0 Flash 平均高出 43.94 分。

单项差距最大的 benchmark：AIME2025 — Gemini 3.0 Flash 99.70，Gemini 2.0 Flash Experimental 29.70（分差 +70）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。