GPT-5.1vsGPT-4.5

在 4 个共同 benchmark 中，GPT-5.1 整体领先：GPT-5.1 领先 4 项，GPT-4.5 领先 0 项，持平 0 项，平均分差 +27.70。

OpenAI · 2025-11-12 · 推理大模型

OpenAI · 2025-02-28 · 聊天大模型

GPT-5.14 项(100%)(0%)0 项GPT-4.5

评测分数

按能力类目分组，每组内按分差大小排列；共 4 项。

GPT-5.1 领先 2/2

评测项	GPT-5.1	GPT-4.5	分差
SWE-bench Verified	76.3030 / 108	38100 / 108	+38.30
IC SWE-Lancer(Diamond)	69.703 / 8Thinking High (No Tools)	32.605 / 8	+37.10

GPT-5.1 领先 1/1

评测项	GPT-5.1	GPT-4.5	分差
GPQA Diamond	88.1028 / 178	71.40105 / 178	+16.70

GPT-5.1 领先 1/1

评测项	GPT-5.1	GPT-4.5	分差
Simple Bench	53.2010 / 27	34.5020 / 27	+18.70

GPT-5.1在以下类目领先:Coding and Software Engineer (2/2)、General Knowledge (1/1)、常识推理 (1/1)

4 个共同 benchmark 上，GPT-5.1 平均高出 27.70 分。

单项差距最大的 benchmark：SWE-bench Verified — GPT-5.1 76.30，GPT-4.5 38（分差 +38.30）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。