GPT-5.1vsGemini 2.5-Pro

在 15 个共同 benchmark 中，GPT-5.1 整体领先：GPT-5.1 领先 13 项，Gemini 2.5-Pro 领先 2 项，持平 0 项，平均分差 +12.83。

OpenAI · 2025-11-12 · 推理大模型

Google Deep Mind · 2025-06-05 · 推理大模型

GPT-5.113 项(87%)(13%)2 项Gemini 2.5-Pro

评测分数

按能力类目分组，每组内按分差大小排列；共 15 项。

GPT-5.1 领先 4/5

评测项	GPT-5.1	Gemini 2.5-Pro	分差
ARC-AGI	72.8028 / 68	3750 / 68	+35.80
LiveBench	42.65106 / 115Normal (No Tools)	58.3376 / 115Thinking High (No Tools)	-15.68
ARC-AGI-2	17.6036 / 62	4.9047 / 62	+12.70
HLE	26.5097 / 172	21.60112 / 172	+4.90
GPQA Diamond	88.1031 / 187	86.4045 / 187	+1.70

GPT-5.1 领先 3/3

评测项	GPT-5.1	Gemini 2.5-Pro	分差
FrontierMath	26.7013 / 60Thinking High (With Tools)	1123 / 60	+15.70
FrontierMath - Tier 4	12.5029 / 80Thinking High (With Tools)	2.1056 / 80Normal (No Tools)	+10.40
AIME2025	9428 / 107	8844 / 107	+6

GPT-5.1 领先 2/2

评测项	GPT-5.1	Gemini 2.5-Pro	分差
τ²-Bench - Telecom	95.6014 / 35Thinking High (With Tools)	5432 / 35	+41.60
Terminal Bench Hard	432 / 13Thinking High (With Tools)	2512 / 13	+18

GPT-5.1 领先 1/1

评测项	GPT-5.1	Gemini 2.5-Pro	分差
BrowseComp	50.8043 / 53Thinking High (No Tools)	7.8052 / 53	+43

GPT-5.1 领先 1/1

评测项	GPT-5.1	Gemini 2.5-Pro	分差
Terminal Bench 2.0	47.6038 / 47Thinking High (With Tools)	32.6047 / 47	+15

GPT-5.1 领先 1/1

评测项	GPT-5.1	Gemini 2.5-Pro	分差
SWE-bench Verified	76.3034 / 112	67.2072 / 112	+9.10

GPT-5.1 领先 1/1

评测项	GPT-5.1	Gemini 2.5-Pro	分差
MMMU	85.402 / 29	8210 / 29	+3.40

Gemini 2.5-Pro 领先 1/1

评测项	GPT-5.1	Gemini 2.5-Pro	分差
Simple Bench	53.2023 / 63Thinking High (No Tools)	62.4011 / 63Thinking (No Tools)	-9.20

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

GPT-5.1在以下类目领先:General Knowledge (4/5)、Math and Reasoning (3/3)、Agent Level Benchmark (2/2)、AI Agent - Information Search (1/1)、AI Agent - Tool Usage (1/1)、Coding and Software Engineer (1/1)、Multimodal Understanding (1/1)
Gemini 2.5-Pro在以下类目领先:常识推理 (1/1)

15 个共同 benchmark 上，GPT-5.1 平均高出 12.83 分。

单项差距最大的 benchmark：BrowseComp — GPT-5.1 50.80，Gemini 2.5-Pro 7.80（分差 +43）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。