GPT-5vsGPT-4.1

在 8 个共同 benchmark 中，GPT-5 整体领先：GPT-5 领先 8 项，GPT-4.1 领先 0 项，持平 0 项，平均分差 +27.55。

OpenAI · 2025-08-07 · 基础大模型

OpenAI · 2025-04-14 · 聊天大模型

GPT-58 项(100%)(0%)0 项GPT-4.1

评测分数

按能力类目分组，每组内按分差大小排列；共 8 项。

GPT-5 领先 3/3

评测项	GPT-5	GPT-4.1	分差
AIME2025	99.609 / 106	36.7097 / 106	+62.90
FrontierMath	24.8015 / 60	5.5037 / 60	+19.30
FrontierMath - Tier 4	12.5029 / 80Thinking High (No Tools)	072 / 80Normal (No Tools)	+12.50

GPT-5 领先 2/2

评测项	GPT-5	GPT-4.1	分差
HLE	35.2060 / 157	3.70156 / 157	+31.50
GPQA Diamond	87.3037 / 178	66.30126 / 178	+21

GPT-5 领先 1/1

评测项	GPT-5	GPT-4.1	分差
τ²-Bench	8015 / 40	54.7031 / 40	+25.30

GPT-5 领先 1/1

评测项	GPT-5	GPT-4.1	分差
SWE-bench Verified	72.8046 / 108	54.6084 / 108	+18.20

GPT-5 领先 1/1

评测项	GPT-5	GPT-4.1	分差
Simple Bench	56.708 / 27	2723 / 27	+29.70

GPT-5在以下类目领先:Math and Reasoning (3/3)、General Knowledge (2/2)、Agent Level Benchmark (1/1)、Coding and Software Engineer (1/1)、常识推理 (1/1)

8 个共同 benchmark 上，GPT-5 平均高出 27.55 分。

单项差距最大的 benchmark：AIME2025 — GPT-5 99.60，GPT-4.1 36.70（分差 +62.90）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。