Claude Sonnet 4.6vsGemini 3.0 Pro (Preview 11-2025)

在 11 个共同 benchmark 中,Claude Sonnet 4.6 整体领先:Claude Sonnet 4.6 领先 7 项,Gemini 3.0 Pro (Preview 11-2025) 领先 3 项,持平 1 项,平均分差 +5.66。

Anthropic
Claude Sonnet 4.6

Anthropic · 2026-02-17 · 聊天大模型

Google Deep Mind
Gemini 3.0 Pro (Preview 11-2025)

Google Deep Mind · 2025-11-18 · 多模态大模型

Claude Sonnet 4.67 (64%)持平1(27%)3 Gemini 3.0 Pro (Preview 11-2025)

评测分数

按能力类目分组,每组内按分差大小排列;共 11 项。

General Knowledge

Claude Sonnet 4.6 领先 2/3
评测项Claude Sonnet 4.6Gemini 3.0 Pro (Preview 11-2025)分差
ARC-AGI-258.3018 / 5945.1023 / 59+13.20
GPQA Diamond89.9021 / 17893.805 / 178-3.90
HLE4925 / 15745.8031 / 157+3.20

Agent Level Benchmark

Gemini 3.0 Pro (Preview 11-2025) 领先 1/1
评测项Claude Sonnet 4.6Gemini 3.0 Pro (Preview 11-2025)分差
τ²-Bench - Telecom97.909 / 35985 / 35-0.10

AI Agent - Information Search

Claude Sonnet 4.6 领先 1/1
评测项Claude Sonnet 4.6Gemini 3.0 Pro (Preview 11-2025)分差
BrowseComp74.7020 / 4559.2031 / 45+15.50

AI Agent - Tool Usage

Claude Sonnet 4.6 领先 1/1
评测项Claude Sonnet 4.6Gemini 3.0 Pro (Preview 11-2025)分差
Terminal Bench 2.059.1022 / 4656.9025 / 46+2.20

Claw-style Agent Evaluation

Claude Sonnet 4.6 领先 1/1
评测项Claude Sonnet 4.6Gemini 3.0 Pro (Preview 11-2025)分差
Pinch Bench885 / 37Thinking (With Tools)70.7031 / 37Thinking (With Tools)+17.30

Coding and Software Engineer

Claude Sonnet 4.6 领先 1/1
评测项Claude Sonnet 4.6Gemini 3.0 Pro (Preview 11-2025)分差
SWE-bench Verified79.6017 / 10876.2032 / 108+3.40

Long Context

胶着 1/1
评测项Claude Sonnet 4.6Gemini 3.0 Pro (Preview 11-2025)分差
AA-LCR711 / 13711 / 13持平

Math and Reasoning

Gemini 3.0 Pro (Preview 11-2025) 领先 1/1
评测项Claude Sonnet 4.6Gemini 3.0 Pro (Preview 11-2025)分差
FrontierMath - Tier 48.3034 / 80Thinking (No Tools, 16K Budget)18.8016 / 80-10.50

Productivity Knowledge

Claude Sonnet 4.6 领先 1/1
评测项Claude Sonnet 4.6Gemini 3.0 Pro (Preview 11-2025)分差
GDPval-AA5711 / 213518 / 21+22

规格对比

字段Claude Sonnet 4.6Gemini 3.0 Pro (Preview 11-2025)
发布机构AnthropicGoogle Deep Mind
发布时间2026-02-172025-11-18
模型类型聊天大模型多模态大模型
架构稠密模型稠密模型
参数规模暂无数据暂无数据
上下文长度1M1000K
最大输出8K64K

API 调用价格

价格优先使用 DataLearner 配置的 API 记录;缺失项不做推测。

价格项Claude Sonnet 4.6Gemini 3.0 Pro (Preview 11-2025)
文本输入$3 / 1M tokens暂无公开价格
文本输出$15 / 1M tokens暂无公开价格
缓存读取$0.3 / 1M tokens暂无公开价格
缓存写入$3.75 / 1M tokens暂无公开价格

部分模型公开价格不完整,缺失字段按"暂无公开价格"展示。

小结

  • Claude Sonnet 4.6在以下类目领先:General Knowledge (2/3)、AI Agent - Information Search (1/1)、AI Agent - Tool Usage (1/1)、Claw-style Agent Evaluation (1/1)、Coding and Software Engineer (1/1)、Productivity Knowledge (1/1)
  • Gemini 3.0 Pro (Preview 11-2025)在以下类目领先:Agent Level Benchmark (1/1)、Math and Reasoning (1/1)
  • 胶着类目:Long Context

11 个共同 benchmark 上,Claude Sonnet 4.6 平均高出 5.66 分。

单项差距最大的 benchmark:GDPval-AA — Claude Sonnet 4.6 57,Gemini 3.0 Pro (Preview 11-2025) 35(分差 +22)。

本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。