GPT-5.1vsGemini 2.5-Pro

在 14 个共同 benchmark 中,GPT-5.1 整体领先:GPT-5.1 领先 13 项,Gemini 2.5-Pro 领先 1 项,持平 0 项,平均分差 +14.86。

OpenAI
GPT-5.1

OpenAI · 2025-11-12 · 推理大模型

Google Deep Mind
Gemini 2.5-Pro

Google Deep Mind · 2025-06-05 · 推理大模型

GPT-5.113 (93%)(7%)1 Gemini 2.5-Pro

评测分数

按能力类目分组,每组内按分差大小排列;共 14 项。

General Knowledge

GPT-5.1 领先 4/4
评测项GPT-5.1Gemini 2.5-Pro分差
ARC-AGI72.8025 / 653747 / 65+35.80
ARC-AGI-217.6033 / 594.9044 / 59+12.70
HLE26.5083 / 15721.6097 / 157+4.90
GPQA Diamond88.1028 / 17886.4041 / 178+1.70

Math and Reasoning

GPT-5.1 领先 3/3
评测项GPT-5.1Gemini 2.5-Pro分差
FrontierMath26.7013 / 60Thinking High (With Tools)1123 / 60+15.70
FrontierMath - Tier 412.5029 / 80Thinking High (With Tools)2.1056 / 80Normal (No Tools)+10.40
AIME20259428 / 1068843 / 106+6

Agent Level Benchmark

GPT-5.1 领先 2/2
评测项GPT-5.1Gemini 2.5-Pro分差
τ²-Bench - Telecom95.6014 / 35Thinking High (With Tools)5432 / 35+41.60
Terminal Bench Hard432 / 13Thinking High (With Tools)2512 / 13+18

AI Agent - Information Search

GPT-5.1 领先 1/1
评测项GPT-5.1Gemini 2.5-Pro分差
BrowseComp50.8036 / 45Thinking High (No Tools)7.8044 / 45+43

AI Agent - Tool Usage

GPT-5.1 领先 1/1
评测项GPT-5.1Gemini 2.5-Pro分差
Terminal Bench 2.047.6037 / 46Thinking High (With Tools)32.6046 / 46+15

Coding and Software Engineer

GPT-5.1 领先 1/1
评测项GPT-5.1Gemini 2.5-Pro分差
SWE-bench Verified76.3030 / 10867.2068 / 108+9.10

Multimodal Understanding

GPT-5.1 领先 1/1
评测项GPT-5.1Gemini 2.5-Pro分差
MMMU85.402 / 28829 / 28+3.40

常识推理

Gemini 2.5-Pro 领先 1/1
评测项GPT-5.1Gemini 2.5-Pro分差
Simple Bench53.2010 / 2762.402 / 27-9.20

规格对比

字段GPT-5.1Gemini 2.5-Pro
发布机构OpenAIGoogle Deep Mind
发布时间2025-11-122025-06-05
模型类型推理大模型推理大模型
架构稠密模型稠密模型
参数规模暂无数据暂无数据
上下文长度400K1000K
最大输出128K64K

小结

  • GPT-5.1在以下类目领先:General Knowledge (4/4)、Math and Reasoning (3/3)、Agent Level Benchmark (2/2)、AI Agent - Information Search (1/1)、AI Agent - Tool Usage (1/1)、Coding and Software Engineer (1/1)、Multimodal Understanding (1/1)
  • Gemini 2.5-Pro在以下类目领先:常识推理 (1/1)

14 个共同 benchmark 上,GPT-5.1 平均高出 14.86 分。

单项差距最大的 benchmark:BrowseComp — GPT-5.1 50.80,Gemini 2.5-Pro 7.80(分差 +43)。

本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。