GPT-5vsGPT-4.1

在 8 个共同 benchmark 中,GPT-5 整体领先:GPT-5 领先 8 项,GPT-4.1 领先 0 项,持平 0 项,平均分差 +27.55。

OpenAI
GPT-5

OpenAI · 2025-08-07 · 基础大模型

OpenAI
GPT-4.1

OpenAI · 2025-04-14 · 聊天大模型

GPT-58 (100%)(0%)0 GPT-4.1

评测分数

按能力类目分组,每组内按分差大小排列;共 8 项。

Math and Reasoning

GPT-5 领先 3/3
评测项GPT-5GPT-4.1分差
AIME202599.609 / 10636.7097 / 106+62.90
FrontierMath24.8015 / 605.5037 / 60+19.30
FrontierMath - Tier 412.5029 / 80Thinking High (No Tools)072 / 80Normal (No Tools)+12.50

General Knowledge

GPT-5 领先 2/2
评测项GPT-5GPT-4.1分差
HLE35.2060 / 1573.70156 / 157+31.50
GPQA Diamond87.3037 / 17866.30126 / 178+21

Agent Level Benchmark

GPT-5 领先 1/1
评测项GPT-5GPT-4.1分差
τ²-Bench8015 / 4054.7031 / 40+25.30

Coding and Software Engineer

GPT-5 领先 1/1
评测项GPT-5GPT-4.1分差
SWE-bench Verified72.8046 / 10854.6084 / 108+18.20

常识推理

GPT-5 领先 1/1
评测项GPT-5GPT-4.1分差
Simple Bench56.708 / 272723 / 27+29.70

规格对比

字段GPT-5GPT-4.1
发布机构OpenAIOpenAI
发布时间2025-08-072025-04-14
模型类型基础大模型聊天大模型
架构稠密模型稠密模型
参数规模暂无数据暂无数据
上下文长度400K1024K
最大输出128K32K

小结

  • GPT-5在以下类目领先:Math and Reasoning (3/3)、General Knowledge (2/2)、Agent Level Benchmark (1/1)、Coding and Software Engineer (1/1)、常识推理 (1/1)

8 个共同 benchmark 上,GPT-5 平均高出 27.55 分。

单项差距最大的 benchmark:AIME2025 — GPT-5 99.60,GPT-4.1 36.70(分差 +62.90)。

本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。