Gemini 3.0 FlashvsClaude Sonnet 4

在 11 个共同 benchmark 中，Gemini 3.0 Flash 整体领先：Gemini 3.0 Flash 领先 10 项，Claude Sonnet 4 领先 1 项，持平 0 项，平均分差 +12.61。

Google Deep Mind · 2025-12-17 · 聊天大模型

Anthropic · 2025-05-23 · 推理大模型

Gemini 3.0 Flash10 项(91%)(9%)1 项Claude Sonnet 4

评测分数

按能力类目分组，每组内按分差大小排列；共 11 项。

Gemini 3.0 Flash 领先 4/4

评测项	Gemini 3.0 Flash	Claude Sonnet 4	分差
HLE	43.5040 / 161	9.60138 / 161	+33.90
ARC-AGI-2	33.6027 / 59	5.9043 / 59	+27.70
GPQA Diamond	90.4018 / 179	83.8058 / 179	+6.60
LiveBench	56.3579 / 115Normal (No Tools)	50.9889 / 115Normal (No Tools)	+5.37

Gemini 3.0 Flash 领先 2/2

评测项	Gemini 3.0 Flash	Claude Sonnet 4	分差
Claw Bench	85.7015 / 29Thinking (With Tools)	77.8023 / 29Thinking (With Tools)	+7.90
Pinch Bench	85.2016 / 37Thinking (With Tools)	80.5022 / 37Thinking (With Tools)	+4.70

胶着 2/2

评测项	Gemini 3.0 Flash	Claude Sonnet 4	分差
SWE-bench Verified	68.7062 / 108	80.2013 / 108	-11.50
SWE-Bench Pro - Public	49.6033 / 44Thinking High (With Tools)	42.7038 / 44	+6.90

Gemini 3.0 Flash 领先 2/2

评测项	Gemini 3.0 Flash	Claude Sonnet 4	分差
AIME2025	99.708 / 106	8550 / 106	+14.70
FrontierMath - Tier 4	4.2040 / 80Normal (No Tools)	072 / 80Normal (No Tools)	+4.20

Gemini 3.0 Flash 领先 1/1

评测项	Gemini 3.0 Flash	Claude Sonnet 4	分差
τ²-Bench	90.203 / 40	5233 / 40	+38.20

Gemini 3.0 Flash在以下类目领先:General Knowledge (4/4)、Claw-style Agent Evaluation (2/2)、Math and Reasoning (2/2)、Agent Level Benchmark (1/1)
胶着类目:Coding and Software Engineer

11 个共同 benchmark 上，Gemini 3.0 Flash 平均高出 12.61 分。

单项差距最大的 benchmark：τ²-Bench — Gemini 3.0 Flash 90.20，Claude Sonnet 4 52（分差 +38.20）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。