Claude Sonnet 4.5vsGemini 2.5-Pro

在 23 个共同 benchmark 中,Claude Sonnet 4.5 整体领先:Claude Sonnet 4.5 领先 14 项,Gemini 2.5-Pro 领先 7 项,持平 2 项,平均分差 +6.21。

Anthropic
Claude Sonnet 4.5

Anthropic · 2025-09-30 · 聊天大模型

Google Deep Mind
Gemini 2.5-Pro

Google Deep Mind · 2025-06-05 · 推理大模型

Claude Sonnet 4.514 (61%)持平2(30%)7 Gemini 2.5-Pro

评测分数

按能力类目分组,每组内按分差大小排列;共 23 项。

General Knowledge

Claude Sonnet 4.5 领先 5/6
评测项Claude Sonnet 4.5Gemini 2.5-Pro分差
ARC-AGI63.7032 / 653747 / 65+26.70
HLE33.6067 / 15721.6097 / 157+12
ARC-AGI-213.6035 / 594.9044 / 59+8.70
LiveBench78.264 / 5271.9213 / 52+6.34
GPQA Diamond83.4058 / 17886.4041 / 178-3
MMLU Pro887 / 1268620 / 126+2

Math and Reasoning

Gemini 2.5-Pro 领先 3/5
评测项Claude Sonnet 4.5Gemini 2.5-Pro分差
IMO-ProofBench27.108 / 1655.203 / 16-28.10
IMO-ProofBench Advanced4.806 / 817.604 / 8-12.80
AIME20251001 / 1068843 / 106+12
FrontierMath5.2038 / 601123 / 60-5.80
FrontierMath - Tier 42.1056 / 80Normal (No Tools)2.1056 / 80Normal (No Tools)持平

Agent Level Benchmark

Claude Sonnet 4.5 领先 2/2
评测项Claude Sonnet 4.5Gemini 2.5-Pro分差
τ²-Bench - Telecom985 / 355432 / 35+44
Terminal Bench Hard338 / 132512 / 13+8

AI Agent - Tool Usage

Claude Sonnet 4.5 领先 2/2
评测项Claude Sonnet 4.5Gemini 2.5-Pro分差
Terminal-Bench503 / 3525.3028 / 35+24.70
Terminal Bench 2.042.8041 / 4632.6046 / 46+10.20

Coding and Software Engineer

胶着 2/2
评测项Claude Sonnet 4.5Gemini 2.5-Pro分差
SWE-bench Verified826 / 10867.2068 / 108+14.80
LiveCodeBench7147 / 12077.1034 / 120-6.10

AI Agent - Information Search

Claude Sonnet 4.5 领先 1/1
评测项Claude Sonnet 4.5Gemini 2.5-Pro分差
BrowseComp24.1043 / 457.8044 / 45+16.30

Instruction Following

Claude Sonnet 4.5 领先 1/1
评测项Claude Sonnet 4.5Gemini 2.5-Pro分差
IF Bench57.3021 / 294928 / 29+8.30

Long Context

胶着 1/1
评测项Claude Sonnet 4.5Gemini 2.5-Pro分差
AA-LCR668 / 13668 / 13持平

Multimodal Understanding

Gemini 2.5-Pro 领先 1/1
评测项Claude Sonnet 4.5Gemini 2.5-Pro分差
MMMU77.8014 / 28829 / 28-4.20

Productivity Knowledge

Claude Sonnet 4.5 领先 1/1
评测项Claude Sonnet 4.5Gemini 2.5-Pro分差
GDPval-AA3916 / 212221 / 21+17

常识推理

Gemini 2.5-Pro 领先 1/1
评测项Claude Sonnet 4.5Gemini 2.5-Pro分差
Simple Bench54.309 / 2762.402 / 27-8.10

规格对比

字段Claude Sonnet 4.5Gemini 2.5-Pro
发布机构AnthropicGoogle Deep Mind
发布时间2025-09-302025-06-05
模型类型聊天大模型推理大模型
架构稠密模型稠密模型
参数规模暂无数据暂无数据
上下文长度1000K1000K
最大输出64K64K

小结

  • Claude Sonnet 4.5在以下类目领先:General Knowledge (5/6)、Agent Level Benchmark (2/2)、AI Agent - Tool Usage (2/2)、AI Agent - Information Search (1/1)、Instruction Following (1/1)、Productivity Knowledge (1/1)
  • Gemini 2.5-Pro在以下类目领先:Math and Reasoning (3/5)、Multimodal Understanding (1/1)、常识推理 (1/1)
  • 胶着类目:Coding and Software Engineer、Long Context

23 个共同 benchmark 上,Claude Sonnet 4.5 平均高出 6.21 分。

单项差距最大的 benchmark:τ²-Bench - Telecom — Claude Sonnet 4.5 98,Gemini 2.5-Pro 54(分差 +44)。

本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。