GPT-5.5

Name: GPT-5.5
Price: 2.5 USD
Availability: InStock
Author: OpenAI

推理大模型

GPT-5.5

Release date: 2026-04-23更新于: 2026-04-24 13:04:33.370549

Live demoGitHubHugging FaceCompare

Parameters

Not disclosed

Context length

1000K

Chinese support

Not supported

Reasoning ability

GPT-5.5 is an AI model published by OpenAI, released on 2026-04-23, for 推理大模型, with 0.0B parameters, and 1000K tokens context length, under the 不开源 license.

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

GPT-5.5

Model basics

Reasoning traces

Supported

Thinking modes

Thinking Level · Extra-High (Default)Standard ModeThinking Level · LowThinking Level · MediumThinking Level · HighThinking Level · Max

Context length

1000K tokens

Max output length

131072 tokens

Model type

推理大模型

Release date

2026-04-23

Model file size

No data

MoE architecture

Total params / Active params

0.0B / N/A

Knowledge cutoff

No data

GPT-5.5

Open source & experience

Code license

不开源

Weights license

不开源- 不开源

GitHub repo

GitHub link unavailable

Hugging Face

Hugging Face link unavailable

Live demo

https://chatgpt.com/

GPT-5.5

Official resources

Paper

Introducing GPT‑5.5

DataLearnerAI blog

OpenAI 发布 GPT-5.5：代号"Spud"，Agent 能力明显提升，API 因安全审查暂缓开放

GPT-5.5

API details

API speed

3/5

💡Default unit: $/1M tokens. If vendors use other units, follow their published pricing.

Learn about pricing modes

Standard

Type	Condition	Input	Output
Text	-	$5.00/ 1M	$30.00/ 1M

Batch

Type	Condition	Input	Output
Text	-	$2.50/ 1M	$15.00/ 1M

Turbo

Type	Condition	Input	Output
Text	-	$12.50/ 1M	$75.00/ 1M

Cache PricingPrompt Cache

Type	TTL	Write	Read
Text	5m	$6.25/ 1M	$0.500/ 1M
Text	1h	$6.25/ 1M	$0.500/ 1M

GPT-5.5

Benchmark Results

GPT-5.5 currently shows benchmark results led by ARC-AGI-2 (1 / 49, score 85), Terminal Bench 2.0 (1 / 43, score 82.70), GPQA Diamond (6 / 175, score 93.60). This page also consolidates core specs, context limits, and API pricing so you can evaluate the model from benchmark results and deployment constraints together.

综合评估

4 evaluations

Benchmark / mode

Score

Rank/total

ARC-AGI

High

2 / 56

GPQA Diamond

High

93.60

6 / 175

ARC-AGI-2

High

1 / 49

HLE

High

41.40

41 / 148

生产力知识

1 evaluations

Benchmark / mode

Score

Rank/total

GDPval-AA

High

84.90

5 / 20

View benchmark analysis Compare with other models

GPT-5.5

Publisher

OpenAI

View publisher details

GPT-5.5

Model Overview

OpenAI 于北京时间4月24日正式发布 GPT-5.5，内部代号"Spud"。距离 GPT-5.4 发布只有大约六周，这个节奏说明头部实验室现在基本上是滚动迭代而不是等大版本攒够了再发。GPT-5.5 即日起向 ChatGPT 的 Plus、Pro、Business 和 Enterprise 用户以及 Codex 用户开放，GPT-5.5 Pro 面向 Pro、Business 和 Enterprise。API 这边因为需要额外的网络安全防护验证，暂时没有同步上线，OpenAI 说"很快"会跟上。

模型基本信息

GPT-5.5 是闭源专有模型，OpenAI 没有公开参数量，架构细节也没有披露，这是 GPT-5 系列一贯的做法。

上下文窗口： API 端为 100 万 token，Codex 环境下为 40 万 token。值得注意的是，100 万 token 的上下文是需要显式配置开启的实验性特性，不配置的话默认走标准窗口，开发者接入时需要留意。

支持的模态： 输入支持文本和图像，输出为文本。

推理模式： GPT-5.5 在 ChatGPT 中以"Thinking"形式暴露，支持多档思考时长调节。Plus 和 Business 用户可以选 Standard 和 Extended 两档，Pro 用户额外多出 Light 和 Heavy 两档。Codex 另有 Fast Mode，延迟降低 1.5 倍，但价格是标准的 2.5 倍。

定价（API 端，即将开放）：

版本输入输出

GPT-5.5 标准$5 / 百万 token$30 / 百万 token

GPT-5.5 Pro$30 / 百万 token$180 / 百万 token

Batch / Flex标准价 × 50%标准价 × 50%

Priority标准价 × 250%标准价 × 250%

对比参考：GPT-5.4 的定价是输入 $2.50 / 输出 $15，GPT-5.5 标准版整整贵了一倍。但 OpenAI 也说了，完成同等任务的 token 消耗会更少，实际综合成本的增幅会低于这个倍数——高吞吐量场景还是要跑一下自己的业务数据再做判断。

这次主要改进了什么

OpenAI 联席总裁 Greg Brockman 在发布会上把 GPT-5.5 定位成"新一类智能"，但具体说的是：在更少外部引导下完成更复杂的多步任务。说白了就是之前需要手把手给指令，现在可以把一个半成品任务丢给它，让它自己去拆解、规划、执行。

官方列出的重点改进方向有四个：Agentic Coding（代码工程）、Computer Use（计算机操控）、通用知识工作，以及科学研究辅助。单 token 延迟和 GPT-5.4 持平，但完成同样任务消耗的 token 数更少——这个组合是这次升级的核心卖点之一。

基准测试：Agent 场景领先，纯推理存在明显差距

OpenAI 公布的几个核心数据值得看一下。

知识工作 Agent 类：GDPval（覆盖 44 个职业类别的知识工作任务评测）得分 84.9%；OSWorld-Verified（真实计算机环境自主操控）78.7%；Tau2-bench Telecom（复杂客服工作流，无提示词调优）98.0%。生物信息学数据分析基准 BixBench 上，OpenAI 称在已公布成绩的模型里排第一。

和 GPT-5.4 相比，进步最大的几个基准是：ARC-AGI-2 提升了 11.7 个百分点、MCP Atlas 提升 8.1 个百分点、Terminal-Bench 2.0 提升 7.6 个百分点。ARC-AGI-2 本身是刻意设计来抵抗快速饱和的通用推理基准，这个幅度的增长不算小。

GPT-5.5 Pro 在 BrowseComp 上得分 90.1%，FrontierMath Tier 4 得分 39.6%。

不过，切换到纯推理场景，情况就没那么好看了。Humanity's Last Exam（无工具条件）上，GPT-5.5 Pro 得分 43.1%，低于 Claude Opus 4.7 的 46.9%，和 Mythos Preview 的 56.8% 差距更明显。也就是说，GPT-5.5 在 Agent 执行和工具调用场景上有优势，但在不依赖工具的纯学术推理上，OpenAI 目前并不领跑。

第三方评测平台 BenchLM.ai 把 GPT-5.5 放在 112 个模型综合排行榜的第 5 位，总分 89/100。最强项是 Agentic 类任务（第 2），最弱项是多模态与有根基理解（第 64），和上面的分析对得上。

编程和 Agent：值不值这个价，主要看这里

代码工程场景，OpenAI 的说法是 GPT-5.5 能更好地理解系统架构和故障节点，知道改哪里、改了之后会影响哪里。早期测试显示，同样的 Codex 任务 GPT-5.5 需要的重试次数更少，token 消耗也更低。

计算机操控方面，OSWorld-Verified 78.7% 在目前公开有成绩的模型里是比较靠前的。有早期测试团队用 GPT-5.5 批量审阅了数千份文档，另一个团队把每周商业报表的处理流程压缩节省了 5 到 10 小时。

Nvidia 内部测试中把 GPT-5.5 描述为"首席参谋"型工具——可以驱动已经在内部作为员工角色运行的 AI Agent。Nvidia 副总裁 Justin Boitano 说该模型已经经过了数周的内部测试。

科研方向：已经不只是搜信息了

OpenAI 这次专门强调了科研辅助，首席研究官 Mark Chen 说 GPT-5.5 在科学与技术研究工作流上"有实质性提升"，药物发现是点名的应用方向之一。

一个比较有说服力的案例是：一个配了定制推理框架的 GPT-5.5 内部版本，参与发现了拉姆齐数（Ramsey Numbers）的一个新证明。拉姆齐数是组合数学里的核心研究对象，这个案例说明模型的贡献已经不只是整理信息，而是在数学推理生成层面有了真实的参与。当然这是内部特化版本，和通用产品端的能力不能直接划等号。

另一个案例，一位免疫学教授用 GPT-5.5 Pro 分析了一个包含 62 个样本、近 2.8 万个基因的基因表达数据集，产出了包含关键洞察和研究问题的完整研究报告，他说这个工作原本要团队花几个月时间。

API 为什么没有同步上线

安全副总裁 Mia Glaese 的表态是：API 部署"需要不同的安全防护措施"，公司正在和合作伙伴对接大规模服务的安全需求。

背景很清楚：距 Anthropic 宣布 Claude Mythos Preview 不到两周——Mythos 因为具备高级网络安全攻击识别能力，已经限制了访问范围，只向受信任的合作伙伴和政府机构开放。OpenAI 发布前对近 200 家早期合作伙伴做了红队测试，覆盖网络安全和生物风险两个高风险领域。在当前的监管气候下，API 端口做额外的安全验证是正常操作，不算意外。

DataLearner 的判断

GPT-5.5 是一次以 Agent 执行能力为核心的定向升级，不是全面碾压式的代际跃迁。ARC-AGI-2、MCP Atlas、Terminal-Bench 2.0 的增益，加上 OSWorld-Verified 78.7%，指向的是一个在实际工程和任务自动化场景里更可用的执行型模型。

但在 Humanity's Last Exam 上落后于 Anthropic Opus 4.7 和 Mythos Preview 这件事，说明 GPT-5.5 的能力分布有清晰的结构性特征：它更擅长"做事"而不是"想清楚复杂问题"。对于在设计 Agent 工作流的开发者来说，这意味着 GPT-5.5 更适合作为执行层工具，深度推理链路上可能还需要别的搭配。

对于开发者而言，现在最值得盯的是 API 开放时间和配套安全策略——特别是 OpenAI 会怎么处理高级 Agent 能力在 API 层面的访问控制边界。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送