GPT-5vsGemini 2.5-Pro

在 19 个共同 benchmark 中,GPT-5 整体领先:GPT-5 领先 17 项,Gemini 2.5-Pro 领先 2 项,持平 0 项,平均分差 +12.47。

OpenAI
GPT-5

OpenAI · 2025-08-07 · 基础大模型

Google Deep Mind
Gemini 2.5-Pro

Google Deep Mind · 2025-06-05 · 推理大模型

GPT-517 (89%)(11%)2 Gemini 2.5-Pro

评测分数

按能力类目分组,每组内按分差大小排列;共 19 项。

Math and Reasoning

GPT-5 领先 6/7
评测项GPT-5Gemini 2.5-Pro分差
IMO 2025292 / 915.203 / 9+13.80
FrontierMath24.8015 / 601123 / 60+13.80
AIME202599.609 / 1068843 / 106+11.60
FrontierMath - Tier 412.5029 / 80Thinking High (No Tools)2.1056 / 80Normal (No Tools)+10.40
IMO 2024114 / 10192 / 10-8
IMO-ProofBench592 / 1655.203 / 16+3.80
IMO-ProofBench Advanced202 / 817.604 / 8+2.40

General Knowledge

GPT-5 领先 5/5
评测项GPT-5Gemini 2.5-Pro分差
ARC-AGI65.7030 / 653747 / 65+28.70
HLE35.2060 / 15721.6097 / 157+13.60
LiveBench79.331 / 5271.9213 / 52+7.41
ARC-AGI-29.9037 / 594.9044 / 59+5
GPQA Diamond87.3037 / 17886.4041 / 178+0.90

Agent Level Benchmark

GPT-5 领先 1/1
评测项GPT-5Gemini 2.5-Pro分差
τ²-Bench - Telecom95.8013 / 355432 / 35+41.80

AI Agent - Information Search

GPT-5 领先 1/1
评测项GPT-5Gemini 2.5-Pro分差
BrowseComp54.9032 / 457.8044 / 45+47.10

AI Agent - Tool Usage

GPT-5 领先 1/1
评测项GPT-5Gemini 2.5-Pro分差
Terminal-Bench43.808 / 3525.3028 / 35+18.50

Coding and Software Engineer

GPT-5 领先 1/1
评测项GPT-5Gemini 2.5-Pro分差
SWE-bench Verified72.8046 / 10867.2068 / 108+5.60

Instruction Following

GPT-5 领先 1/1
评测项GPT-5Gemini 2.5-Pro分差
IF Bench73.108 / 294928 / 29+24.10

Multimodal Understanding

GPT-5 领先 1/1
评测项GPT-5Gemini 2.5-Pro分差
MMMU84.205 / 28829 / 28+2.20

常识推理

Gemini 2.5-Pro 领先 1/1
评测项GPT-5Gemini 2.5-Pro分差
Simple Bench56.708 / 2762.402 / 27-5.70

规格对比

字段GPT-5Gemini 2.5-Pro
发布机构OpenAIGoogle Deep Mind
发布时间2025-08-072025-06-05
模型类型基础大模型推理大模型
架构稠密模型稠密模型
参数规模暂无数据暂无数据
上下文长度400K1000K
最大输出128K64K

小结

  • GPT-5在以下类目领先:Math and Reasoning (6/7)、General Knowledge (5/5)、Agent Level Benchmark (1/1)、AI Agent - Information Search (1/1)、AI Agent - Tool Usage (1/1)、Coding and Software Engineer (1/1)、Instruction Following (1/1)、Multimodal Understanding (1/1)
  • Gemini 2.5-Pro在以下类目领先:常识推理 (1/1)

19 个共同 benchmark 上,GPT-5 平均高出 12.47 分。

单项差距最大的 benchmark:BrowseComp — GPT-5 54.90,Gemini 2.5-Pro 7.80(分差 +47.10)。

本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。