GPT-5.5

Name: GPT-5.5
Price: 2.5 USD
Availability: InStock
Author: OpenAI

推理大模型GPTGPT-5.5

GPT-5.5

发布时间: 2026-04-23更新于: 2026-07-17 21:57:20.6807,936

在线体验GitHubHugging FaceCompare

模型参数

未披露

上下文长度

1000K

中文支持

支持

推理能力

GPT-5.5（代号 Spud）是 OpenAI 于 2026 年 4 月发布的旗舰推理模型，专为 Agent 编程、计算机操控与知识工作设计，支持 100 万 token 上下文。本页收录完整基准评测、API 定价与模型解读。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

GPT-5.5

模型基本信息

推理过程

支持

思考模式

思考水平 · 极高 (Extra-High) (默认)常规模式思考水平 · 低 (Low)思考水平 · 中 (Medium)思考水平 · 高 (High)思考水平 · 最高 (Max)

上下文长度

1000K tokens

最大输出长度

128K tokens

模型类型

推理大模型

输入/输出模态

文本、图像 → 文本

发布时间

2026-04-23

模型文件大小

暂无数据

MoE架构

否

总参数 / 激活参数

暂无数据 / 不涉及

知识截止

暂无数据

GPT-5.5

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

https://chatgpt.com/

GPT-5.5

官方介绍与博客

官方论文

Introducing GPT‑5.5

DataLearnerAI博客

OpenAI 发布 GPT-5.5：代号

GPT-5.5

API接口信息

接口速度

3/5

💡默认单位：$/100万 tokens。若计费单位不同，则以供应商公开的原始标注为准。

了解不同定价模式详解

标准模式

类型	适用条件	输入	输出
文本	-	$5.00/ 1M	$30.00/ 1M

批量模式

类型	适用条件	输入	输出
文本	-	$2.50/ 1M	$15.00/ 1M

加速模式

类型	适用条件	输入	输出
文本	-	$12.50/ 1M	$75.00/ 1M

缓存定价Prompt缓存

类型	有效期	写入	读取
文本	-	-	$0.500/ 1M
文本	5m	$6.25/ 1M	$0.500/ 1M
文本	1h	$6.25/ 1M	$0.500/ 1M

GPT-5.5

评测结果

GPT-5.5 当前已收录的代表性评测结果包括 LiveBench（1 / 115，得分 80.71）、ARC-AGI-2（1 / 61，得分 85）、Terminal Bench 2.0（1 / 47，得分 82.70）。本页还汇总了参数规模、上下文长度与 API 价格，便于结合评测结果与部署约束一起判断模型适配度。

综合评估

共 15 项评测

评测名称 / 模式

得分

排名/总数

ARC-AGI

低

76.20

25 / 67

ARC-AGI

中

92.20

11 / 67

ARC-AGI

高

94.50

6 / 67

ARC-AGI

极高

4 / 67

GPQA Diamond

高

93.60

6 / 187

ARC-AGI-2

低

33.30

30 / 61

ARC-AGI-2

中

70.40

13 / 61

ARC-AGI-2

高

1 / 61

ARC-AGI-2

极高

1 / 61

LiveBench

中

68.66

44 / 115

LiveBench

高

76.24

9 / 115

LiveBench

深度

80.71

1 / 115

HLE

高

41.40

56 / 170

HLE

高工具

52.20

18 / 170

ARC-AGI-3

高

4 / 8

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

Simple Bench

常规模式

7 / 63

数学推理

共 3 项评测

评测名称 / 模式

得分

排名/总数

FrontierMath

高工具

51.70

2 / 60

FrontierMath - Tier 4

高工具

35.40

7 / 80

FrontierMath - Tier 4

极高

35.40

7 / 80

编程与软件工程

共 2 项评测

评测名称 / 模式

得分

排名/总数

DeepSWE

极高工具

6 / 17

SWE-Bench Pro - Public

高工具

58.60

11 / 51

Agent能力评测

共 1 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecom

高工具

5 / 35

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总数

BrowseComp

高工具联网

84.40

7 / 52

AI Agent - 工具使用

共 4 项评测

评测名称 / 模式

得分

排名/总数

TerminalBench 2.1

高工具

83.40

7 / 25

Terminal Bench 2.0

高工具

82.70

1 / 47

OSWorld-Verified

高工具

78.70

6 / 20

MCP-Atlas

极高工具

75.30

12 / 27

生产力知识

共 1 项评测

评测名称 / 模式

得分

排名/总数

GDPval-AA

高

1769

2 / 21

查看评测深度分析与其他模型对比

和其他模型对比

想自定义其他组合？打开对比工具

GPT-5.5

发布机构

OpenAI

查看发布机构详情

GPT-5.5

模型解读

OpenAI 于北京时间 4 月 24 日正式发布 GPT-5.5，内部代号"Spud"。距 GPT-5.4 发布不过六周，头部实验室已从"大版本攒够再发"切换成了滚动迭代模式。

定位与核心变化

OpenAI 联席总裁 Greg Brockman 把 GPT-5.5 定位为向"agentic 与直觉式计算"迈进的关键一步，核心叙事只有一句话：在更少外部引导下完成更复杂的多步任务。以前需要手把手给指令，现在可以把一个半成品任务直接交给它，让它自己拆解、规划、执行、检查、再继续。

首席研究官 Mark Chen 补充，本次重点改进集中在四个方向：Agentic Coding、Computer Use、通用知识工作，以及科学研究辅助。单 token 延迟与 GPT-5.4 持平，但完成同样任务消耗的 token 数更少——"更贵但更省"是官方卖点，高吞吐量场景建议用自己的业务数据实测再做判断。

关于 GPT-5.5 Pro 有一点值得注意：它并非独立训练的更大模型，而是同一底层模型在推理时启用**并行测试时计算（parallel test-time compute）**后得到的高精度模式。定价是标准版的六倍，买的是计算时长而不是参数规模。

API 定价方面，有一个结构化模块里没有体现的隐藏成本：超过 272,000 个输入 token 的请求，整个会话会按 2 倍输入 + 1.5 倍输出计费，长上下文场景需要提前测算。数据驻留（区域端点）另加 10% 费率。

基准成绩背后的结构性判断

Agent 执行类基准上，GPT-5.5 的进步是真实的：相比 GPT-5.4，ARC-AGI-2 提升了 11.7 个百分点，Terminal-Bench 2.0 提升 7.6 个百分点，MCP Atlas 提升 8.1 个百分点。OSWorld-Verified（真实计算机操控）78.7%，在目前公开有成绩的模型中处于前列。

但切换到纯推理场景，结构性短板同样清晰。Humanity's Last Exam（无工具条件）上，GPT-5.5 Pro 得分 43.1%，低于 Claude Opus 4.7 的 46.9%，与 Mythos Preview 的 56.8% 差距更明显。第三方平台 BenchLM.ai 的综合榜（112 个模型）也印证了这一点：Agentic 类任务排第 2，多模态与有根基理解排第 64。

这个能力分布有清晰的实践含义：GPT-5.5 更适合作为执行层工具，负责规划、操控、工具调用和多步任务完成；深度推理链路如果对准确率要求高，综合选型仍有必要。

科研辅助：两个值得记录的案例

OpenAI 在发布时格外强调了科研方向，这里有两个具体案例可以帮助判断能力边界：一是配了定制推理框架的 GPT-5.5 内部版本，参与发现了拉姆齐数（Ramsey Numbers）的一个新证明，这是组合数学的核心研究对象，说明模型贡献已不只是检索与整理，而是在推理生成层面有了真实参与；二是一位免疫学教授用 GPT-5.5 Pro 分析了包含 62 个样本、近 2.8 万个基因的基因表达数据集，产出了含关键洞察与研究问题的完整报告，他表示原本需要团队花费数月。

两个案例都值得打折扣看：前者是内部特化版本，后者是单个专家的主观评估。但方向上指向的是同一件事：模型正在从"搜索替代品"向"协作型研究工具"转变。

渠道格局重塑：AWS Bedrock 与 Azure 独家授权终止

这是本次发布周期里影响最深远的变化，却容易被技术性能讨论掩盖。

4 月 27 日，微软与 OpenAI 正式修订协议，结束自 2019 年以来长达七年的 Azure 排他授权。4 月 28 日，OpenAI 随即宣布与 AWS 扩大战略合作：GPT-5.5 和 GPT-5.4 在 Amazon Bedrock 上线限量预览，Codex 首次进入多云环境，同步推出 Amazon Bedrock Managed Agents powered by OpenAI。AWS 获得 OpenAI Frontier 企业 Agent 平台的独家第三方分发权，双方还在联合开发跨调用保留上下文的有状态运行时环境（Stateful Runtime Environment）。

对企业开发者的直接意义是：有 AWS 存量承诺消费的团队现在可以直接在 Bedrock 调用 GPT-5.5，复用现有 IAM、PrivateLink 和审计体系，不需要另开 OpenAI 账户。OpenAI 产品正式进入多云可选格局，企业侧的供应链集中度风险也随之重新分布。

DataLearner 的判断

GPT-5.5 是一次以 Agent 执行能力为核心的定向升级，不是全面碾压式的代际跃迁。对大多数场景，最值得关注的实际上不是 benchmark 排名的微小变化，而是：token 效率提升能否覆盖价格翻倍的成本、长上下文的隐藏计费规则、以及 Bedrock 上架带来的企业采购路径变化。这三件事对实际部署决策的影响，远比又赢了哪个 benchmark 更实质。

GPT-5.5

常见问题

GPT-5.5 是什么模型？

GPT-5.5 支持哪些输入和输出模态？

当前官方资料记录其支持文本、图像输入，并生成文本输出。

GPT-5.5 的上下文窗口和最大输出是多少？

上下文窗口为 1000K，最大输出为 128K。未公开或无法确认的规格不做推测。

GPT-5.5 适合哪些任务？

根据已收录的官方能力标签，它适合推理大模型、多语言相关任务；实际效果应结合具体工作流验证。

GPT-5.5 是否提供 API，价格如何查看？

页面已收录 OpenAI 的 30 条定价规则。价格可能随地域、上下文档位、缓存和时间变化，应以页面价格表及官方计费页为准。

GPT-5.5 是否开源？

代码与模型权重按不开源记录；使用前仍应核对官方许可原文。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

模型基本信息

开源和体验地址

官方介绍与博客

API接口信息

评测结果

综合评估

常识推理

数学推理

编程与软件工程

Agent能力评测

AI Agent - 信息收集

AI Agent - 工具使用

生产力知识

模型关系

前代版本

竞品模型

和其他模型对比

发布机构

模型解读

定位与核心变化

基准成绩背后的结构性判断

科研辅助：两个值得记录的案例

渠道格局重塑：AWS Bedrock 与 Azure 独家授权终止

DataLearner 的判断

常见问题

GPT-5.5 是什么模型？

GPT-5.5 支持哪些输入和输出模态？

GPT-5.5 的上下文窗口和最大输出是多少？

GPT-5.5 适合哪些任务？

GPT-5.5 是否提供 API，价格如何查看？

GPT-5.5 是否开源？

DataLearner 官方微信