GPT-5.1vsGPT-4.5

在 4 个共同 benchmark 中,GPT-5.1 整体领先:GPT-5.1 领先 4 项,GPT-4.5 领先 0 项,持平 0 项,平均分差 +27.70。

OpenAI
GPT-5.1

OpenAI · 2025-11-12 · 推理大模型

OpenAI
GPT-4.5

OpenAI · 2025-02-28 · 聊天大模型

GPT-5.14 (100%)(0%)0 GPT-4.5

评测分数

按能力类目分组,每组内按分差大小排列;共 4 项。

Coding and Software Engineer

GPT-5.1 领先 2/2
评测项GPT-5.1GPT-4.5分差
SWE-bench Verified76.3030 / 10838100 / 108+38.30
IC SWE-Lancer(Diamond)69.703 / 8Thinking High (No Tools)32.605 / 8+37.10

General Knowledge

GPT-5.1 领先 1/1
评测项GPT-5.1GPT-4.5分差
GPQA Diamond88.1028 / 17871.40105 / 178+16.70

常识推理

GPT-5.1 领先 1/1
评测项GPT-5.1GPT-4.5分差
Simple Bench53.2010 / 2734.5020 / 27+18.70

规格对比

字段GPT-5.1GPT-4.5
发布机构OpenAIOpenAI
发布时间2025-11-122025-02-28
模型类型推理大模型聊天大模型
架构稠密模型稠密模型
参数规模暂无数据暂无数据
上下文长度400K128K
最大输出128K暂无数据

小结

  • GPT-5.1在以下类目领先:Coding and Software Engineer (2/2)、General Knowledge (1/1)、常识推理 (1/1)

4 个共同 benchmark 上,GPT-5.1 平均高出 27.70 分。

单项差距最大的 benchmark:SWE-bench Verified — GPT-5.1 76.30,GPT-4.5 38(分差 +38.30)。

本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。