GPT-5vsGemini 2.5-Pro

在 20 个共同 benchmark 中，GPT-5 整体领先：GPT-5 领先 18 项，Gemini 2.5-Pro 领先 2 项，持平 0 项，平均分差 +23.48。

OpenAI · 2025-08-07 · 基础大模型

Google Deep Mind · 2025-06-05 · 推理大模型

GPT-518 项(90%)(10%)2 项Gemini 2.5-Pro

评测分数

按能力类目分组，每组内按分差大小排列；共 20 项。

GPT-5 领先 6/7

评测项	GPT-5	Gemini 2.5-Pro	分差
IMO 2025	292 / 9	15.203 / 9	+13.80
FrontierMath	24.8015 / 60	1123 / 60	+13.80
AIME2025	99.609 / 107	8844 / 107	+11.60
FrontierMath - Tier 4	12.5029 / 80Thinking High (No Tools)	2.1056 / 80Normal (No Tools)	+10.40
IMO 2024	114 / 10	192 / 10	-8
IMO-ProofBench	592 / 16	55.203 / 16	+3.80
IMO-ProofBench Advanced	202 / 8	17.604 / 8	+2.40

GPT-5 领先 4/4

评测项	GPT-5	Gemini 2.5-Pro	分差
ARC-AGI	65.7033 / 68	3750 / 68	+28.70
HLE	35.2073 / 172	21.60112 / 172	+13.60
ARC-AGI-2	9.9040 / 62	4.9047 / 62	+5
GPQA Diamond	87.3040 / 187	86.4045 / 187	+0.90

GPT-5 领先 2/2

评测项	GPT-5	Gemini 2.5-Pro	分差
τ²-Bench - Telecom	95.8013 / 35	5432 / 35	+41.80
Aider-Polyglot	881 / 59Thinking High (No Tools)	83.104 / 59Thinking (No Tools, 32K Budget)	+4.90

GPT-5 领先 2/2

评测项	GPT-5	Gemini 2.5-Pro	分差
CodeClash	1,3602 / 8Normal (With Tools)	1,1256 / 8Normal (With Tools)	+235
SWE-bench Verified	72.8050 / 112	67.2072 / 112	+5.60

GPT-5 领先 1/1

评测项	GPT-5	Gemini 2.5-Pro	分差
BrowseComp	54.9039 / 53	7.8052 / 53	+47.10

GPT-5 领先 1/1

评测项	GPT-5	Gemini 2.5-Pro	分差
Terminal-Bench	43.808 / 35	25.3028 / 35	+18.50

GPT-5 领先 1/1

评测项	GPT-5	Gemini 2.5-Pro	分差
IF Bench	73.109 / 30	4929 / 30	+24.10

GPT-5 领先 1/1

评测项	GPT-5	Gemini 2.5-Pro	分差
MMMU	84.206 / 29	8210 / 29	+2.20

Gemini 2.5-Pro 领先 1/1

评测项	GPT-5	Gemini 2.5-Pro	分差
Simple Bench	56.7020 / 63Thinking High (No Tools)	62.4011 / 63Thinking (No Tools)	-5.70

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

GPT-5在以下类目领先:Math and Reasoning (6/7)、General Knowledge (4/4)、Agent Level Benchmark (2/2)、Coding and Software Engineer (2/2)、AI Agent - Information Search (1/1)、AI Agent - Tool Usage (1/1)、Instruction Following (1/1)、Multimodal Understanding (1/1)
Gemini 2.5-Pro在以下类目领先:常识推理 (1/1)

20 个共同 benchmark 上，GPT-5 平均高出 23.48 分。

单项差距最大的 benchmark：CodeClash — GPT-5 1,360，Gemini 2.5-Pro 1,125（分差 +235）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。