Gemini 3.0 FlashvsClaude Sonnet 4

在 11 个共同 benchmark 中,Gemini 3.0 Flash 整体领先:Gemini 3.0 Flash 领先 10 项,Claude Sonnet 4 领先 1 项,持平 0 项,平均分差 +12.61。

Google Deep Mind
Gemini 3.0 Flash

Google Deep Mind · 2025-12-17 · 聊天大模型

Anthropic
Claude Sonnet 4

Anthropic · 2025-05-23 · 推理大模型

Gemini 3.0 Flash10 (91%)(9%)1 Claude Sonnet 4

评测分数

按能力类目分组,每组内按分差大小排列;共 11 项。

General Knowledge

Gemini 3.0 Flash 领先 4/4
评测项Gemini 3.0 FlashClaude Sonnet 4分差
HLE43.5040 / 1619.60138 / 161+33.90
ARC-AGI-233.6027 / 595.9043 / 59+27.70
GPQA Diamond90.4018 / 17983.8058 / 179+6.60
LiveBench56.3579 / 115Normal (No Tools)50.9889 / 115Normal (No Tools)+5.37

Claw-style Agent Evaluation

Gemini 3.0 Flash 领先 2/2
评测项Gemini 3.0 FlashClaude Sonnet 4分差
Claw Bench85.7015 / 29Thinking (With Tools)77.8023 / 29Thinking (With Tools)+7.90
Pinch Bench85.2016 / 37Thinking (With Tools)80.5022 / 37Thinking (With Tools)+4.70

Coding and Software Engineer

胶着 2/2
评测项Gemini 3.0 FlashClaude Sonnet 4分差
SWE-bench Verified68.7062 / 10880.2013 / 108-11.50
SWE-Bench Pro - Public49.6033 / 44Thinking High (With Tools)42.7038 / 44+6.90

Math and Reasoning

Gemini 3.0 Flash 领先 2/2
评测项Gemini 3.0 FlashClaude Sonnet 4分差
AIME202599.708 / 1068550 / 106+14.70
FrontierMath - Tier 44.2040 / 80Normal (No Tools)072 / 80Normal (No Tools)+4.20

Agent Level Benchmark

Gemini 3.0 Flash 领先 1/1
评测项Gemini 3.0 FlashClaude Sonnet 4分差
τ²-Bench90.203 / 405233 / 40+38.20

规格对比

字段Gemini 3.0 FlashClaude Sonnet 4
发布机构Google Deep MindAnthropic
发布时间2025-12-172025-05-23
模型类型聊天大模型推理大模型
架构稠密模型稠密模型
参数规模暂无数据暂无数据
上下文长度2000K200K
最大输出64K64K

小结

  • Gemini 3.0 Flash在以下类目领先:General Knowledge (4/4)、Claw-style Agent Evaluation (2/2)、Math and Reasoning (2/2)、Agent Level Benchmark (1/1)
  • 胶着类目:Coding and Software Engineer

11 个共同 benchmark 上,Gemini 3.0 Flash 平均高出 12.61 分。

单项差距最大的 benchmark:τ²-Bench — Gemini 3.0 Flash 90.20,Claude Sonnet 4 52(分差 +38.20)。

本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。