GPT-5.1vsGPT-5

在 13 个共同 benchmark 中，GPT-5.1 整体领先：GPT-5.1 领先 7 项，GPT-5 领先 5 项，持平 1 项，平均分差 +1.12。

OpenAI · 2025-11-12 · 推理大模型

OpenAI · 2025-08-07 · 基础大模型

GPT-5.17 项(54%)持平1(38%)5 项GPT-5

评测分数

按能力类目分组，每组内按分差大小排列；共 13 项。

GPT-5.1 领先 3/4

评测项	GPT-5.1	GPT-5	分差
HLE	26.5097 / 172	35.2073 / 172	-8.70
ARC-AGI-2	17.6036 / 62	9.9040 / 62	+7.70
ARC-AGI	72.8028 / 68	65.7033 / 68	+7.10
GPQA Diamond	88.1031 / 187	87.3040 / 187	+0.80

胶着 3/3

评测项	GPT-5.1	GPT-5	分差
AIME2025	9428 / 107	99.609 / 107	-5.60
FrontierMath	26.7013 / 60Thinking High (With Tools)	24.8015 / 60	+1.90
FrontierMath - Tier 4	12.5029 / 80Thinking High (With Tools)	12.5029 / 80Thinking High (No Tools)	持平

GPT-5.1 领先 2/2

评测项	GPT-5.1	GPT-5	分差
SWE-Bench Pro - Public	50.8040 / 54Thinking High (No Tools)	36.3052 / 54	+14.50
SWE-bench Verified	76.3034 / 112	72.8050 / 112	+3.50

GPT-5 领先 1/1

评测项	GPT-5.1	GPT-5	分差
τ²-Bench - Telecom	95.6014 / 35Thinking High (With Tools)	95.8013 / 35	-0.20

GPT-5 领先 1/1

评测项	GPT-5.1	GPT-5	分差
BrowseComp	50.8043 / 53Thinking High (No Tools)	54.9039 / 53	-4.10

GPT-5.1 领先 1/1

评测项	GPT-5.1	GPT-5	分差
MMMU	85.402 / 29	84.206 / 29	+1.20

GPT-5 领先 1/1

评测项	GPT-5.1	GPT-5	分差
Simple Bench	53.2023 / 63Thinking High (No Tools)	56.7020 / 63Thinking High (No Tools)	-3.50

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

GPT-5.1在以下类目领先:General Knowledge (3/4)、Coding and Software Engineer (2/2)、Multimodal Understanding (1/1)
GPT-5在以下类目领先:Agent Level Benchmark (1/1)、AI Agent - Information Search (1/1)、常识推理 (1/1)
胶着类目:Math and Reasoning

13 个共同 benchmark 上，GPT-5.1 平均高出 1.12 分。

单项差距最大的 benchmark：SWE-Bench Pro - Public — GPT-5.1 50.80，GPT-5 36.30（分差 +14.50）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。