Gemini 3.0 FlashvsHaiku 4.5

在 12 个共同 benchmark 中，Gemini 3.0 Flash 整体领先：Gemini 3.0 Flash 领先 11 项，Haiku 4.5 领先 1 项，持平 0 项，平均分差 +22.66。

Google Deep Mind · 2025-12-17 · 聊天大模型

Anthropic · 2025-10-15 · 多模态大模型

Gemini 3.0 Flash11 项(92%)(8%)1 项Haiku 4.5

评测分数

按能力类目分组，每组内按分差大小排列；共 12 项。

Gemini 3.0 Flash 领先 4/4

评测项	Gemini 3.0 Flash	Haiku 4.5	分差
HLE	43.5047 / 172	4.30170 / 172Normal (No Tools)	+39.20
ARC-AGI-2	33.6030 / 62	1.3055 / 62Normal (No Tools)	+32.30
GPQA Diamond	90.4019 / 187	60.50144 / 187Normal (No Tools)	+29.90
LiveBench	56.3579 / 115Normal (No Tools)	45.33103 / 115Normal (No Tools)	+11.02

胶着 2/2

评测项	Gemini 3.0 Flash	Haiku 4.5	分差
Claw Bench	85.7015 / 29Thinking (With Tools)	89.4011 / 29Thinking (With Tools)	-3.70
Pinch Bench	85.2016 / 37Thinking (With Tools)	8221 / 37Thinking (With Tools)	+3.20

Gemini 3.0 Flash 领先 2/2

评测项	Gemini 3.0 Flash	Haiku 4.5	分差
SWE-Bench Pro - Public	49.6042 / 54Thinking High (With Tools)	39.4551 / 54Extended (with tools)	+10.15
SWE-bench Verified	68.7066 / 112	60.6080 / 112Normal (With Tools)	+8.10

Gemini 3.0 Flash 领先 2/2

评测项	Gemini 3.0 Flash	Haiku 4.5	分差
AIME2025	99.708 / 107	3995 / 107Normal (No Tools)	+60.70
FrontierMath - Tier 4	4.2040 / 80Normal (No Tools)	2.1056 / 80Thinking (No Tools, 32K Budget)	+2.10

Gemini 3.0 Flash 领先 1/1

评测项	Gemini 3.0 Flash	Haiku 4.5	分差
τ²-Bench	90.203 / 43	3342 / 43Normal (With Tools)	+57.20

Gemini 3.0 Flash 领先 1/1

评测项	Gemini 3.0 Flash	Haiku 4.5	分差
MCP-Atlas	6220 / 27Normal (With Tools)	40.2027 / 27Normal (With Tools)	+21.80

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

Gemini 3.0 Flash在以下类目领先:General Knowledge (4/4)、Coding and Software Engineer (2/2)、Math and Reasoning (2/2)、Agent Level Benchmark (1/1)、AI Agent - Tool Usage (1/1)
胶着类目:Claw-style Agent Evaluation

12 个共同 benchmark 上，Gemini 3.0 Flash 平均高出 22.66 分。

单项差距最大的 benchmark：AIME2025 — Gemini 3.0 Flash 99.70，Haiku 4.5 39（分差 +60.70）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。