Claude Sonnet 4.5vsGemini 2.5-Pro

在 24 个共同 benchmark 中，Claude Sonnet 4.5 整体领先：Claude Sonnet 4.5 领先 14 项，Gemini 2.5-Pro 领先 8 项，持平 2 项，平均分差 +16.50。

Claude Sonnet 4.5

Anthropic · 2025-09-30 · 聊天大模型

Gemini 2.5-Pro

Google Deep Mind · 2025-06-05 · 推理大模型

Claude Sonnet 4.514 项(58%)持平2(33%)8 项Gemini 2.5-Pro

评测分数

按能力类目分组，每组内按分差大小排列；共 24 项。

General Knowledge

Claude Sonnet 4.5 领先 4/6

评测项	Claude Sonnet 4.5	Gemini 2.5-Pro	分差
ARC-AGI	63.7035 / 68	3750 / 68	+26.70
HLE	33.6080 / 172	21.60112 / 172	+12
ARC-AGI-2	13.6038 / 62	4.9047 / 62	+8.70
LiveBench	53.6983 / 115Normal (No Tools)	58.3376 / 115Thinking High (No Tools)	-4.64
GPQA Diamond	83.4063 / 187	86.4045 / 187	-3
MMLU Pro	887 / 132	8621 / 132	+2

Math and Reasoning

Gemini 2.5-Pro 领先 3/5

评测项	Claude Sonnet 4.5	Gemini 2.5-Pro	分差
IMO-ProofBench	27.108 / 16	55.203 / 16	-28.10
IMO-ProofBench Advanced	4.806 / 8	17.604 / 8	-12.80
AIME2025	1001 / 107	8844 / 107	+12
FrontierMath	5.2038 / 60	1123 / 60	-5.80
FrontierMath - Tier 4	2.1056 / 80Normal (No Tools)	2.1056 / 80Normal (No Tools)	持平

Coding and Software Engineer

Claude Sonnet 4.5 领先 2/3

评测项	Claude Sonnet 4.5	Gemini 2.5-Pro	分差
CodeClash	1,3891 / 8Normal (With Tools)	1,1256 / 8Normal (With Tools)	+264
SWE-bench Verified	828 / 112	67.2072 / 112	+14.80
LiveCodeBench	7148 / 123	77.1034 / 123	-6.10

Agent Level Benchmark

Claude Sonnet 4.5 领先 2/2

评测项	Claude Sonnet 4.5	Gemini 2.5-Pro	分差
τ²-Bench - Telecom	985 / 35	5432 / 35	+44
Terminal Bench Hard	338 / 13	2512 / 13	+8

AI Agent - Tool Usage

Claude Sonnet 4.5 领先 2/2

评测项	Claude Sonnet 4.5	Gemini 2.5-Pro	分差
Terminal-Bench	503 / 35	25.3028 / 35	+24.70
Terminal Bench 2.0	42.8042 / 47	32.6047 / 47	+10.20

AI Agent - Information Search

Claude Sonnet 4.5 领先 1/1

评测项	Claude Sonnet 4.5	Gemini 2.5-Pro	分差
BrowseComp	24.1051 / 53	7.8052 / 53	+16.30

Instruction Following

Claude Sonnet 4.5 领先 1/1

评测项	Claude Sonnet 4.5	Gemini 2.5-Pro	分差
IF Bench	57.3022 / 30	4929 / 30	+8.30

Long Context

胶着 1/1

评测项	Claude Sonnet 4.5	Gemini 2.5-Pro	分差
AA-LCR	6610 / 15	6610 / 15	持平

Multimodal Understanding

Gemini 2.5-Pro 领先 1/1

评测项	Claude Sonnet 4.5	Gemini 2.5-Pro	分差
MMMU	77.8015 / 29	8210 / 29	-4.20

Productivity Knowledge

Claude Sonnet 4.5 领先 1/1

评测项	Claude Sonnet 4.5	Gemini 2.5-Pro	分差
GDPval-AA	3916 / 21	2221 / 21	+17

常识推理

Gemini 2.5-Pro 领先 1/1

评测项	Claude Sonnet 4.5	Gemini 2.5-Pro	分差
Simple Bench	54.3022 / 63Normal (No Tools)	62.4011 / 63Thinking (No Tools)	-8.10

规格对比

字段	Claude Sonnet 4.5	Gemini 2.5-Pro
发布机构	Anthropic	Google Deep Mind
发布时间	2025-09-30	2025-06-05
模型类型	聊天大模型	推理大模型
架构	稠密模型	稠密模型
参数规模	暂无数据	暂无数据
上下文长度	1000K	1000K
最大输出	64K	64K

API 调用价格

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

价格项	Claude Sonnet 4.5	Gemini 2.5-Pro
文本输入	$3 / 1M tokens	$1.25 / 1M tokens
文本输出	$15 / 1M tokens	$10 / 1M tokens
缓存读取	$0.3 / 1M tokens	暂无公开价格
缓存写入	$3.75 / 1M tokens	暂无公开价格

小结

Claude Sonnet 4.5在以下类目领先:General Knowledge (4/6)、Coding and Software Engineer (2/3)、Agent Level Benchmark (2/2)、AI Agent - Tool Usage (2/2)、AI Agent - Information Search (1/1)、Instruction Following (1/1)、Productivity Knowledge (1/1)
Gemini 2.5-Pro在以下类目领先:Math and Reasoning (3/5)、Multimodal Understanding (1/1)、常识推理 (1/1)
胶着类目:Long Context

24 个共同 benchmark 上，Claude Sonnet 4.5 平均高出 16.50 分。

单项差距最大的 benchmark：CodeClash — Claude Sonnet 4.5 1,389，Gemini 2.5-Pro 1,125（分差 +264）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。

Claude Sonnet 4.5 详情 Gemini 2.5-Pro 详情·在工具里自定义对比