GPT-5.5 评测详情

GPT-5.5 当前已收录的代表性评测结果包括 LiveBench（1 / 115，得分 80.71）、ARC-AGI-2（1 / 61，得分 85）、Terminal Bench 2.0（1 / 47，得分 82.70）。本页还提供与 3 个竞品模型及 3 个前代或同系列模型的对比，在有数据时会展示性能和价格视图。并附有 2 个数据来源链接供参考。

评测结果

GPT-5.5

评测结果

综合评估

共 15 项评测

评测名称 / 模式

得分

排名/总数

ARC-AGI

低

76.20

25 / 67

ARC-AGI

中

92.20

11 / 67

ARC-AGI

高

94.50

6 / 67

ARC-AGI

极高

4 / 67

GPQA Diamond

高

93.60

6 / 187

ARC-AGI-2

低

33.30

30 / 61

ARC-AGI-2

中

70.40

13 / 61

ARC-AGI-2

高

1 / 61

ARC-AGI-2

极高

1 / 61

LiveBench

中

68.66

44 / 115

LiveBench

高

76.24

9 / 115

LiveBench

深度思考模式

80.71

1 / 115

HLE

高

41.40

56 / 170

HLE

高工具

52.20

18 / 170

ARC-AGI-3

高

4 / 8

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

Simple Bench

常规模式

7 / 63

数学推理

共 3 项评测

评测名称 / 模式

得分

排名/总数

FrontierMath

高工具

51.70

2 / 60

FrontierMath - Tier 4

高工具

35.40

7 / 80

FrontierMath - Tier 4

极高

35.40

7 / 80

编程与软件工程

共 2 项评测

评测名称 / 模式

得分

排名/总数

DeepSWE

极高工具

6 / 18

SWE-Bench Pro - Public

高工具

58.60

12 / 53

Agent能力评测

共 1 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecom

高工具

5 / 35

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总数

BrowseComp

高工具联网

84.40

7 / 52

AI Agent - 工具使用

共 4 项评测

评测名称 / 模式

得分

排名/总数

TerminalBench 2.1

高工具

83.40

7 / 27

Terminal Bench 2.0

高工具

82.70

1 / 47

OSWorld-Verified

高工具

78.70

7 / 23

MCP-Atlas

极高工具

75.30

12 / 27

生产力知识

共 1 项评测

评测名称 / 模式

得分

排名/总数

GDPval-AA

高

1769

2 / 21

与其他模型对比

竞品对比

GPT-5.5 与同类主流模型的评测得分对比

GPT-5.5Opus 4.7 Claude Mythos Preview Gemini 3.1 Pro Preview

评测类别:

柱状图按当前筛选范围内每个模型在各评测中的最高分展示；百分制评测使用原始高度，超出 0-100 的评测按该评测内相对比例缩放，标签仍保留原始分数。

7 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。

评测项	GPT-5.5当前	Opus 4.7	Claude Mythos Preview	Gemini 3.1 Pro Preview
ARC-AGI 综合评估	95.00思考水平·极高	92.00思考水平·高	--	--
ARC-AGI-2 综合评估	85.00思考水平·极高	75.80思考水平·高	--	77.10思考水平·高
LiveBench 综合评估	80.71深度思考模式	76.91深度思考模式	--	--
FrontierMath - Tier 4 数学推理	35.40思考水平·极高	22.90思考水平·极高	--	16.70常规模式
BrowseComp AI Agent - 信息收集	84.40思考水平·高｜工具	79.30扩展思考｜工具	84.90扩展思考｜工具	85.90思考水平·高｜工具
MCP-Atlas AI Agent - 工具使用	75.30思考水平·极高｜工具	79.10深度思考模式｜工具	--	--
TerminalBench 2.1 AI Agent - 工具使用	83.40思考水平·高｜工具	69.70思考水平·高｜工具	--	73.80思考水平·高｜工具

GPT-5.5 与同类模型的标准 API 价格对比

按模型并排展示标准文本输入价与输出价；若存在超长上下文加价，仅保留阈值内标准价，并在下方说明适用范围。

数据来源：DataLearnerAI，展示默认供应商的标准文本价格。 · USD / 1M tokens

若存在上下文阈值，图中标准价仅适用于以下范围：

Gemini 3.1 Pro Preview: 标准价适用于 <= 200K

模型	供应商	标准输入	标准输出	标准价适用于
GPT-5.5	OpenAI	$5 / 1M tokens	$30 / 1M tokens	—
Opus 4.7	Anthropic	$5 / 1M tokens	$25 / 1M tokens	—
Claude Mythos Preview	Anthropic	$25 / 1M tokens	$125 / 1M tokens	—
Gemini 3.1 Pro Preview	Google Deep Mind	$2 / 1M tokens	$12 / 1M tokens	<= 200K

历代版本对比

GPT-5.5 系列各版本的评测成绩纵向对比

GPT-5.5GPT-5.4 GPT-5.2 GPT-5.1

评测类别:

7 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。· 点击任意行可切换下方趋势图。

评测项	GPT-5.5当前	GPT-5.4	GPT-5.2	GPT-5.1
ARC-AGI 综合评估	95.00思考水平·极高	93.70常规模式	90.50深度思考模式	72.80思考水平·高
ARC-AGI-2 综合评估	85.00思考水平·极高	77.10常规模式	54.20深度思考模式	17.60思考水平·高
LiveBench 综合评估	80.71深度思考模式	80.28深度思考模式	48.91常规模式	69.17思考水平·中
FrontierMath - Tier 4 数学推理	35.40思考水平·极高	27.10思考水平·极高	18.80思考水平·极高	12.50思考水平·高｜工具
DeepSWE 编程与软件工程	67.00思考水平·极高｜工具	52.00思考水平·极高｜工具	--	--
BrowseComp AI Agent - 信息收集	84.40思考水平·高｜工具	82.70思考水平·极高｜工具	65.80思考水平·极高｜工具	--
MCP-Atlas AI Agent - 工具使用	75.30思考水平·极高｜工具	70.60思考水平·极高｜工具	--	--

单评测历史趋势图

当前查看：ARC-AGI · 综合评估

选择评测

常规常规 + 工具推理推理 + 工具深度推理深度推理 + 工具

横轴为模型与发布时间，纵轴为分数；同一模式会用实线串起版本变化，同代不同模式继续用虚线辅助对齐。

GPT-5.5 所在系列的标准 API 价格对比

按模型并排展示标准文本输入价与输出价；若存在超长上下文加价，仅保留阈值内标准价，并在下方说明适用范围。

数据来源：DataLearnerAI，展示默认供应商的标准文本价格。 · USD / 1M tokens

若存在上下文阈值，图中标准价仅适用于以下范围：

GPT-5.4: 标准价适用于 <= 272K

模型	供应商	标准输入	标准输出	标准价适用于
GPT-5.5	OpenAI	$5 / 1M tokens	$30 / 1M tokens	—
GPT-5.4	OpenAI	$2.5 / 1M tokens	$15 / 1M tokens	<= 272K
GPT-5.2	Facebook AI研究实验室	$1.75 / 1M tokens	$14 / 1M tokens	—
GPT-5.1	OpenAI	$1.25 / 1M tokens	$10 / 1M tokens	—

数据来源

openai.comopenai.com arcprize.orgarcprize.org