Gemini 3.0 FlashvsClaude Sonnet 4
在 11 个共同 benchmark 中,Gemini 3.0 Flash 整体领先:Gemini 3.0 Flash 领先 10 项,Claude Sonnet 4 领先 1 项,持平 0 项,平均分差 +12.61。
Gemini 3.0 Flash
Google Deep Mind · 2025-12-17 · 聊天大模型
Claude Sonnet 4
Anthropic · 2025-05-23 · 推理大模型
Gemini 3.0 Flash10 项(91%)(9%)1 项Claude Sonnet 4
评测分数
按能力类目分组,每组内按分差大小排列;共 11 项。
General Knowledge
Gemini 3.0 Flash 领先 4/4| 评测项 | Gemini 3.0 Flash | Claude Sonnet 4 | 分差 |
|---|---|---|---|
| HLE | 43.5040 / 161 | 9.60138 / 161 | +33.90 |
| ARC-AGI-2 | 33.6027 / 59 | 5.9043 / 59 | +27.70 |
| GPQA Diamond | 90.4018 / 179 | 83.8058 / 179 | +6.60 |
| LiveBench | 56.3579 / 115Normal (No Tools) | 50.9889 / 115Normal (No Tools) | +5.37 |
Claw-style Agent Evaluation
Gemini 3.0 Flash 领先 2/2| 评测项 | Gemini 3.0 Flash | Claude Sonnet 4 | 分差 |
|---|---|---|---|
| Claw Bench | 85.7015 / 29Thinking (With Tools) | 77.8023 / 29Thinking (With Tools) | +7.90 |
| Pinch Bench | 85.2016 / 37Thinking (With Tools) | 80.5022 / 37Thinking (With Tools) | +4.70 |
Coding and Software Engineer
胶着 2/2| 评测项 | Gemini 3.0 Flash | Claude Sonnet 4 | 分差 |
|---|---|---|---|
| SWE-bench Verified | 68.7062 / 108 | 80.2013 / 108 | -11.50 |
| SWE-Bench Pro - Public | 49.6033 / 44Thinking High (With Tools) | 42.7038 / 44 | +6.90 |
Math and Reasoning
Gemini 3.0 Flash 领先 2/2| 评测项 | Gemini 3.0 Flash | Claude Sonnet 4 | 分差 |
|---|---|---|---|
| AIME2025 | 99.708 / 106 | 8550 / 106 | +14.70 |
| FrontierMath - Tier 4 | 4.2040 / 80Normal (No Tools) | 072 / 80Normal (No Tools) | +4.20 |
Agent Level Benchmark
Gemini 3.0 Flash 领先 1/1| 评测项 | Gemini 3.0 Flash | Claude Sonnet 4 | 分差 |
|---|---|---|---|
| τ²-Bench | 90.203 / 40 | 5233 / 40 | +38.20 |
规格对比
| 字段 | Gemini 3.0 Flash | Claude Sonnet 4 |
|---|---|---|
| 发布机构 | Google Deep Mind | Anthropic |
| 发布时间 | 2025-12-17 | 2025-05-23 |
| 模型类型 | 聊天大模型 | 推理大模型 |
| 架构 | 稠密模型 | 稠密模型 |
| 参数规模 | 暂无数据 | 暂无数据 |
| 上下文长度 | 2000K | 200K |
| 最大输出 | 64K | 64K |
小结
- Gemini 3.0 Flash在以下类目领先:General Knowledge (4/4)、Claw-style Agent Evaluation (2/2)、Math and Reasoning (2/2)、Agent Level Benchmark (1/1)
- 胶着类目:Coding and Software Engineer
11 个共同 benchmark 上,Gemini 3.0 Flash 平均高出 12.61 分。
单项差距最大的 benchmark:τ²-Bench — Gemini 3.0 Flash 90.20,Claude Sonnet 4 52(分差 +38.20)。
本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。