Gemini 3.5 FlashvsClaude Sonnet 4.6

在 6 个共同 benchmark 中，Gemini 3.5 Flash 整体领先：Gemini 3.5 Flash 领先 4 项，Claude Sonnet 4.6 领先 2 项，持平 0 项，平均分差 +5.26。

Google Deep Mind · 2026-06-20 · 多模态大模型

Anthropic · 2026-02-17 · 聊天大模型

Gemini 3.5 Flash4 项(67%)(33%)2 项Claude Sonnet 4.6

评测分数

按能力类目分组，每组内按分差大小排列；共 6 项。

Claude Sonnet 4.6 领先 2/3

评测项	Gemini 3.5 Flash	Claude Sonnet 4.6	分差
ARC-AGI-2	72.1011 / 59Thinking High (With Tools)	58.3018 / 59	+13.80
HLE	40.2055 / 161Thinking High (With Tools)	4927 / 161	-8.80
LiveBench	75.0217 / 115Thinking High (No Tools)	75.4712 / 115Thinking Medium (No Tools)	-0.45

Gemini 3.5 Flash 领先 2/2

评测项	Gemini 3.5 Flash	Claude Sonnet 4.6	分差
MCP-Atlas	83.601 / 23Thinking High (With Tools)	69.5013 / 23Normal (With Tools)	+14.10
OSWorld-Verified	78.406 / 19Thinking High (With Tools)	72.5011 / 19	+5.90

Gemini 3.5 Flash 领先 1/1

评测项	Gemini 3.5 Flash	Claude Sonnet 4.6	分差
DeepSWE	376 / 9Thinking Medium (With Tools)	308 / 9Thinking High (With Tools)	+7

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

Gemini 3.5 Flash在以下类目领先:AI Agent - Tool Usage (2/2)、Coding and Software Engineer (1/1)
Claude Sonnet 4.6在以下类目领先:General Knowledge (2/3)

6 个共同 benchmark 上，Gemini 3.5 Flash 平均高出 5.26 分。

单项差距最大的 benchmark：MCP-Atlas — Gemini 3.5 Flash 83.60，Claude Sonnet 4.6 69.50（分差 +14.10）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。