GPT-5.1 评测详情
GPT-5.1 当前已收录的代表性评测结果包括 MMMU(2 / 28,得分 85.40)、GPQA Diamond(19 / 165,得分 88.10)、FrontierMath(7 / 54,得分 26.70)。本页还提供与 2 个竞品模型及 2 个前代或同系列模型的对比,在有数据时会展示性能和价格视图。并附有 2 个数据来源链接供参考。
评测结果
GPT-5.1
评测结果
综合评估
共 4 项评测评测名称 / 模式
得分
排名/总数
竞品对比
GPT-5.1 与同类主流模型的评测得分对比
评测类别:
GPT-5.1:
thinking
medium
Claude Opus 4:
normal
Gemini 2.5-Pro:
normal
评测得分对比
12 项可对比评测得分汇总
| 评测项 | GPT-5.1(本模型) | Claude Opus 4 | Gemini 2.5-Pro |
|---|---|---|---|
ARC-AGI 综合评估 | 72.80 high | 35.70 normal | 37.00 thinking |
ARC-AGI-2 综合评估 | 17.60 high | 8.60 normal | 4.90 thinking |
GPQA Diamond 综合评估 | 88.10 thinking | 79.60 normal | 86.40 thinking |
HLE 综合评估 | 42.70 思考模式 High(工具+联网) | 10.70 normal | 21.60 thinking |
SWE-bench Verified 编程与软件工程 | 76.30 high | 72.50 normal | 67.20 thinking |
AIME2025 数学推理 | 94.00 high | 75.50 normal | 88.00 thinking |
FrontierMath 数学推理 | 26.70 思考模式 High(工具) | 4.50 normal | 11.00 normal |
12.50 high | 4.20 thinking | 4.20 normal | |
MMMU 多模态理解 | 85.40 high | -- | 82.00 thinking |
Simple Bench 常识推理 | 53.20 high | 58.80 thinking | 62.40 thinking |
Terminal Bench Hard Agent能力评测 | 43.00 思考模式 High(工具) | -- | 25.00 thinking + 使用工具 |
τ²-Bench - Telecom Agent能力评测 | 95.60 思考模式 High(工具) | -- | 54.00 thinking + 使用工具 |
其余 2 个 benchmark 仍可在上方图表中查看。
GPT-5.1 与同类模型的标准 API 价格对比
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。
这些模型的价格币种或计费单位不一致,暂不直接绘制统一柱状图,以下展示原始价格。
GPT-5.1当前模型
标准输入: 1.25 美元/100万 tokens
标准输出: 10 美元/100万 tokens
Claude Opus 4
标准输入: 15 美元/ 100万tokens
标准输出: 75 美元/100万tokens
Gemini 2.5-Pro
标准输入: 1.25 美元/100 万tokens
标准输出: 10 美元/100 万tokens
标准价适用于 <= 200K
| 模型 | 供应商 | 标准输入 | 标准输出 | 标准价适用于 |
|---|---|---|---|---|
GPT-5.1 当前模型 | — | 1.25 美元/100万 tokens | 10 美元/100万 tokens | — |
Claude Opus 4 | — | 15 美元/ 100万tokens | 75 美元/100万tokens | — |
Gemini 2.5-Pro | — | 1.25 美元/100 万tokens | 10 美元/100 万tokens | <= 200K |
历代版本对比
GPT-5.1 系列各版本的评测成绩纵向对比
评测类别:
GPT-5.1:
thinking
medium
GPT-5:
normal
GPT-4.5:
normal
评测得分对比
12 项可对比评测得分汇总
| 评测项 | GPT-5.1(本模型) | GPT-5 | GPT-4.5 |
|---|---|---|---|
ARC-AGI 综合评估 | 72.80 high | 65.70 high | -- |
ARC-AGI-2 综合评估 | 17.60 high | 9.90 high | -- |
GPQA Diamond 综合评估 | 88.10 thinking | 87.30 thinking + 使用工具 | 71.40 normal |
HLE 综合评估 | 42.70 思考模式 High(工具+联网) | 35.20 thinking + 使用工具 | -- |
IC SWE-Lancer(Diamond) 编程与软件工程 | 69.70 思考模式 High(无工具) | -- | 32.60 normal |
SWE-Bench Pro - Public 编程与软件工程 | 50.80 思考模式 High(无工具) | 36.30 high | -- |
SWE-bench Verified 编程与软件工程 | 76.30 high | 72.80 high | 38.00 normal |
AIME2025 数学推理 | 94.00 high | 99.60 thinking + 使用工具 | -- |
FrontierMath 数学推理 | 26.70 思考模式 High(工具) | 26.30 思考模式 High(工具) | -- |
12.50 high | 12.50 high | -- | |
MMMU 多模态理解 | 85.40 high | 84.20 high | -- |
Simple Bench 常识推理 | 53.20 high | 56.70 high | 34.50 normal |
其余 2 个 benchmark 仍可在上方图表中查看。
GPT-5.1 所在系列的标准 API 价格对比
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。
这些模型的价格币种或计费单位不一致,暂不直接绘制统一柱状图,以下展示原始价格。
GPT-5.1当前模型
标准输入: 1.25 美元/100万 tokens
标准输出: 10 美元/100万 tokens
GPT-5
标准输入: 1.25 美元/100 万tokens
标准输出: 10 美元/100 万tokens
| 模型 | 供应商 | 标准输入 | 标准输出 | 标准价适用于 |
|---|---|---|---|---|
GPT-5.1 当前模型 | — | 1.25 美元/100万 tokens | 10 美元/100万 tokens | — |
GPT-5 | — | 1.25 美元/100 万tokens | 10 美元/100 万tokens | — |
系列版本评测总览
查看 GPT-5.1 系列各版本在主要评测上的整体得分,点击任意评测行可查看各推理模式的细分结果。
提示:点击任意分数单元格可切换下方关系图。
单评测模式关系图
当前查看:ARC-AGI · 综合评估
选择评测