GPT-5.1 评测详情

GPT-5.1 当前已收录的代表性评测结果包括 MMMU（2 / 28，得分 85.40）、Terminal Bench Hard（2 / 13，得分 43）、GPQA Diamond（30 / 180，得分 88.10）。本页还提供与 2 个竞品模型及 2 个前代或同系列模型的对比，在有数据时会展示性能和价格视图。并附有 2 个数据来源链接供参考。

评测结果

GPT-5.1

评测结果

综合评估

共 16 项评测

评测名称 / 模式

得分

排名/总数

GPQA Diamond

88.10

30 / 180

GPQA Diamond

88.10

30 / 180

GPQA Diamond

思考水平·高

88.10

30 / 180

ARC-AGI

72.80

25 / 65

ARC-AGI

57.70

37 / 65

ARC-AGI

33.20

50 / 65

LiveBench

常规模式

42.65

106 / 115

LiveBench

思考水平·低

59.95

71 / 115

LiveBench

思考水平·中

69.17

41 / 115

LiveBench

思考水平·高

72.04

29 / 115

HLE

26.50

89 / 163

HLE

思考水平·高

25.70

91 / 163

HLE

思考水平·高工具联网

42.70

47 / 163

ARC-AGI-2

17.60

33 / 59

ARC-AGI-2

6.50

41 / 59

ARC-AGI-2

1.90

50 / 59

编程与软件工程

共 4 项评测

评测名称 / 模式

得分

排名/总数

SWE-bench Verified

76.30

31 / 109

SWE-bench Verified

思考水平·高工具

76.30

31 / 109

IC SWE-Lancer(Diamond)

思考水平·高

69.70

3 / 8

SWE-Bench Pro - Public

思考水平·高

50.80

32 / 45

数学推理

共 6 项评测

评测名称 / 模式

得分

排名/总数

AIME2025

28 / 106

AIME2025

思考水平·高

28 / 106

FrontierMath

思考水平·高工具

26.70

13 / 60

FrontierMath - Tier 4

思考水平·中

4.20

40 / 80

FrontierMath - Tier 4

思考水平·高

12.50

29 / 80

FrontierMath - Tier 4

思考水平·高工具

12.50

29 / 80

多模态理解

共 2 项评测

评测名称 / 模式

得分

排名/总数

MMMU

85.40

2 / 28

MMMU

思考水平·高

85.40

2 / 28

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

Simple Bench

思考水平·高

53.20

23 / 63

Agent能力评测

共 2 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecom

思考水平·高工具

95.60

14 / 35

Terminal Bench Hard

思考水平·高工具

2 / 13

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总数

BrowseComp

思考水平·高

50.80

38 / 47

AI Agent - 工具使用

共 2 项评测

评测名称 / 模式

得分

排名/总数

MCP-Atlas

思考水平·高工具

50.10

22 / 24

Terminal Bench 2.0

思考水平·高工具

47.60

37 / 46

与其他模型对比

竞品对比

GPT-5.1 与同类主流模型的评测得分对比

GPT-5.1Claude Opus 4 Gemini 2.5-Pro

评测类别:

柱状图按当前筛选范围内每个模型在各评测中的最高分展示；百分制评测使用原始高度，超出 0-100 的评测按该评测内相对比例缩放，标签仍保留原始分数。

12 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。

评测项	GPT-5.1当前	Claude Opus 4	Gemini 2.5-Pro
ARC-AGI 综合评估	72.80思考水平·高	35.70常规模式	37.00开启思考
ARC-AGI-2 综合评估	17.60思考水平·高	8.60常规模式	4.90开启思考
GPQA Diamond 综合评估	88.10开启思考	79.60常规模式	86.40开启思考
HLE 综合评估	42.70思考水平·高｜工具	10.70常规模式	21.60开启思考
LiveBench 综合评估	72.04思考水平·高	--	58.33思考水平·高
SWE-bench Verified 编程与软件工程	76.30思考水平·高	72.50常规模式	67.20开启思考
AIME2025 数学推理	94.00思考水平·高	75.50常规模式	88.00开启思考
FrontierMath 数学推理	26.70思考水平·高｜工具	4.50常规模式	11.00常规模式
FrontierMath - Tier 4 数学推理	12.50思考水平·高｜工具	4.20开启思考	2.10常规模式
MMMU 多模态理解	85.40思考水平·高	--	82.00开启思考
Simple Bench 常识推理	53.20思考水平·高	58.80开启思考	62.40开启思考
Terminal Bench Hard Agent能力评测	43.00思考水平·高｜工具	--	25.00开启思考｜工具

其余 3 个 benchmark 仍可在上方图表中查看。

GPT-5.1 与同类模型的标准 API 价格对比

按模型并排展示标准文本输入价与输出价；若存在超长上下文加价，仅保留阈值内标准价，并在下方说明适用范围。

数据来源：DataLearnerAI，展示默认供应商的标准文本价格。

这些模型暂未提供可比较的标准文本价格。

历代版本对比

GPT-5.1 系列各版本的评测成绩纵向对比

GPT-5.1GPT-5 GPT-4.5

评测类别:

7 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。· 点击任意行可切换下方趋势图。

评测项	GPT-5.1当前	GPT-5	GPT-4.5
ARC-AGI 综合评估	72.80思考水平·高	65.70思考水平·高	--
ARC-AGI-2 综合评估	17.60思考水平·高	9.90思考水平·高	--
GPQA Diamond 综合评估	88.10开启思考	87.30开启思考｜工具	71.40常规模式
HLE 综合评估	42.70思考水平·高｜工具	35.20开启思考｜工具	--
SWE-bench Verified 编程与软件工程	76.30思考水平·高	72.80思考水平·高	38.00常规模式
AIME2025 数学推理	94.00思考水平·高	99.60开启思考｜工具	--
MMMU 多模态理解	85.40思考水平·高	84.20思考水平·高	--

单评测历史趋势图

当前查看：ARC-AGI · 综合评估

选择评测

常规常规 + 工具推理推理 + 工具深度推理深度推理 + 工具

横轴为模型与发布时间，纵轴为分数；同一模式会用实线串起版本变化，同代不同模式继续用虚线辅助对齐。

GPT-5.1 所在系列的标准 API 价格对比

按模型并排展示标准文本输入价与输出价；若存在超长上下文加价，仅保留阈值内标准价，并在下方说明适用范围。

数据来源：DataLearnerAI，展示默认供应商的标准文本价格。

这些模型暂未提供可比较的标准文本价格。

数据来源

openai.comopenai.com openai.comopenai.com