GPT-5.5

Name: GPT-5.5
Price: 2.5 USD
Availability: InStock
Author: OpenAI

推理大模型

GPT-5.5

发布时间: 2026-04-23更新于: 2026-04-24 13:04:33.370549

在线体验GitHubHugging FaceCompare

模型参数

未披露

上下文长度

1000K

中文支持

不支持

推理能力

GPT-5.5 是由 OpenAI 发布的 AI 模型，发布时间为 2026-04-23，定位为推理大模型，参数规模约为 0.0B，上下文长度为 1000K，采用不开源许可。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

GPT-5.5

模型基本信息

推理过程

支持

思考模式

思考水平 · 极高 (Extra-High) (默认)常规模式思考水平 · 低 (Low)思考水平 · 中 (Medium)思考水平 · 高 (High)思考水平 · 最高 (Max)

上下文长度

1000K tokens

最大输出长度

131072 tokens

模型类型

推理大模型

发布时间

2026-04-23

模型文件大小

暂无数据

MoE架构

否

总参数 / 激活参数

0.0 亿 / 不涉及

知识截止

暂无数据

GPT-5.5

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源- 不开源

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

https://chatgpt.com/

GPT-5.5

官方介绍与博客

官方论文

Introducing GPT‑5.5

DataLearnerAI博客

OpenAI 发布 GPT-5.5：代号"Spud"，Agent 能力明显提升，API 因安全审查暂缓开放

GPT-5.5

API接口信息

接口速度

3/5

💡默认单位：$/100万 tokens。若计费单位不同，则以供应商公开的原始标注为准。

了解不同定价模式详解

标准模式

类型	适用条件	输入	输出
文本	-	$5.00/ 1M	$30.00/ 1M

批量模式

类型	适用条件	输入	输出
文本	-	$2.50/ 1M	$15.00/ 1M

加速模式

类型	适用条件	输入	输出
文本	-	$12.50/ 1M	$75.00/ 1M

缓存定价Prompt缓存

类型	有效期	写入	读取
文本	5m	$6.25/ 1M	$0.500/ 1M
文本	1h	$6.25/ 1M	$0.500/ 1M

GPT-5.5

评测结果

GPT-5.5 当前已收录的代表性评测结果包括 ARC-AGI-2（1 / 49，得分 85）、Terminal Bench 2.0（1 / 43，得分 82.70）、GPQA Diamond（6 / 175，得分 93.60）。本页还汇总了参数规模、上下文长度与 API 价格，便于结合评测结果与部署约束一起判断模型适配度。

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总数

BrowseComp

高工具联网

84.40

5 / 43

查看评测深度分析与其他模型对比

GPT-5.5

发布机构

OpenAI

查看发布机构详情

GPT-5.5

模型解读

OpenAI 于北京时间4月24日正式发布 GPT-5.5，内部代号"Spud"。距离 GPT-5.4 发布只有大约六周，这个节奏说明头部实验室现在基本上是滚动迭代而不是等大版本攒够了再发。GPT-5.5 即日起向 ChatGPT 的 Plus、Pro、Business 和 Enterprise 用户以及 Codex 用户开放，GPT-5.5 Pro 面向 Pro、Business 和 Enterprise。API 这边因为需要额外的网络安全防护验证，暂时没有同步上线，OpenAI 说"很快"会跟上。

模型基本信息

GPT-5.5 是闭源专有模型，OpenAI 没有公开参数量，架构细节也没有披露，这是 GPT-5 系列一贯的做法。

上下文窗口： API 端为 100 万 token，Codex 环境下为 40 万 token。值得注意的是，100 万 token 的上下文是需要显式配置开启的实验性特性，不配置的话默认走标准窗口，开发者接入时需要留意。

支持的模态： 输入支持文本和图像，输出为文本。

推理模式： GPT-5.5 在 ChatGPT 中以"Thinking"形式暴露，支持多档思考时长调节。Plus 和 Business 用户可以选 Standard 和 Extended 两档，Pro 用户额外多出 Light 和 Heavy 两档。Codex 另有 Fast Mode，延迟降低 1.5 倍，但价格是标准的 2.5 倍。

定价（API 端，即将开放）：

版本输入输出

GPT-5.5 标准$5 / 百万 token$30 / 百万 token

GPT-5.5 Pro$30 / 百万 token$180 / 百万 token

Batch / Flex标准价 × 50%标准价 × 50%

Priority标准价 × 250%标准价 × 250%

对比参考：GPT-5.4 的定价是输入 $2.50 / 输出 $15，GPT-5.5 标准版整整贵了一倍。但 OpenAI 也说了，完成同等任务的 token 消耗会更少，实际综合成本的增幅会低于这个倍数——高吞吐量场景还是要跑一下自己的业务数据再做判断。

这次主要改进了什么

OpenAI 联席总裁 Greg Brockman 在发布会上把 GPT-5.5 定位成"新一类智能"，但具体说的是：在更少外部引导下完成更复杂的多步任务。说白了就是之前需要手把手给指令，现在可以把一个半成品任务丢给它，让它自己去拆解、规划、执行。

官方列出的重点改进方向有四个：Agentic Coding（代码工程）、Computer Use（计算机操控）、通用知识工作，以及科学研究辅助。单 token 延迟和 GPT-5.4 持平，但完成同样任务消耗的 token 数更少——这个组合是这次升级的核心卖点之一。

基准测试：Agent 场景领先，纯推理存在明显差距

OpenAI 公布的几个核心数据值得看一下。

知识工作 Agent 类：GDPval（覆盖 44 个职业类别的知识工作任务评测）得分 84.9%；OSWorld-Verified（真实计算机环境自主操控）78.7%；Tau2-bench Telecom（复杂客服工作流，无提示词调优）98.0%。生物信息学数据分析基准 BixBench 上，OpenAI 称在已公布成绩的模型里排第一。

和 GPT-5.4 相比，进步最大的几个基准是：ARC-AGI-2 提升了 11.7 个百分点、MCP Atlas 提升 8.1 个百分点、Terminal-Bench 2.0 提升 7.6 个百分点。ARC-AGI-2 本身是刻意设计来抵抗快速饱和的通用推理基准，这个幅度的增长不算小。

GPT-5.5 Pro 在 BrowseComp 上得分 90.1%，FrontierMath Tier 4 得分 39.6%。

不过，切换到纯推理场景，情况就没那么好看了。Humanity's Last Exam（无工具条件）上，GPT-5.5 Pro 得分 43.1%，低于 Claude Opus 4.7 的 46.9%，和 Mythos Preview 的 56.8% 差距更明显。也就是说，GPT-5.5 在 Agent 执行和工具调用场景上有优势，但在不依赖工具的纯学术推理上，OpenAI 目前并不领跑。

第三方评测平台 BenchLM.ai 把 GPT-5.5 放在 112 个模型综合排行榜的第 5 位，总分 89/100。最强项是 Agentic 类任务（第 2），最弱项是多模态与有根基理解（第 64），和上面的分析对得上。

编程和 Agent：值不值这个价，主要看这里

代码工程场景，OpenAI 的说法是 GPT-5.5 能更好地理解系统架构和故障节点，知道改哪里、改了之后会影响哪里。早期测试显示，同样的 Codex 任务 GPT-5.5 需要的重试次数更少，token 消耗也更低。

计算机操控方面，OSWorld-Verified 78.7% 在目前公开有成绩的模型里是比较靠前的。有早期测试团队用 GPT-5.5 批量审阅了数千份文档，另一个团队把每周商业报表的处理流程压缩节省了 5 到 10 小时。

Nvidia 内部测试中把 GPT-5.5 描述为"首席参谋"型工具——可以驱动已经在内部作为员工角色运行的 AI Agent。Nvidia 副总裁 Justin Boitano 说该模型已经经过了数周的内部测试。

科研方向：已经不只是搜信息了

OpenAI 这次专门强调了科研辅助，首席研究官 Mark Chen 说 GPT-5.5 在科学与技术研究工作流上"有实质性提升"，药物发现是点名的应用方向之一。

一个比较有说服力的案例是：一个配了定制推理框架的 GPT-5.5 内部版本，参与发现了拉姆齐数（Ramsey Numbers）的一个新证明。拉姆齐数是组合数学里的核心研究对象，这个案例说明模型的贡献已经不只是整理信息，而是在数学推理生成层面有了真实的参与。当然这是内部特化版本，和通用产品端的能力不能直接划等号。

另一个案例，一位免疫学教授用 GPT-5.5 Pro 分析了一个包含 62 个样本、近 2.8 万个基因的基因表达数据集，产出了包含关键洞察和研究问题的完整研究报告，他说这个工作原本要团队花几个月时间。

API 为什么没有同步上线

安全副总裁 Mia Glaese 的表态是：API 部署"需要不同的安全防护措施"，公司正在和合作伙伴对接大规模服务的安全需求。

背景很清楚：距 Anthropic 宣布 Claude Mythos Preview 不到两周——Mythos 因为具备高级网络安全攻击识别能力，已经限制了访问范围，只向受信任的合作伙伴和政府机构开放。OpenAI 发布前对近 200 家早期合作伙伴做了红队测试，覆盖网络安全和生物风险两个高风险领域。在当前的监管气候下，API 端口做额外的安全验证是正常操作，不算意外。

DataLearner 的判断

GPT-5.5 是一次以 Agent 执行能力为核心的定向升级，不是全面碾压式的代际跃迁。ARC-AGI-2、MCP Atlas、Terminal-Bench 2.0 的增益，加上 OSWorld-Verified 78.7%，指向的是一个在实际工程和任务自动化场景里更可用的执行型模型。

但在 Humanity's Last Exam 上落后于 Anthropic Opus 4.7 和 Mythos Preview 这件事，说明 GPT-5.5 的能力分布有清晰的结构性特征：它更擅长"做事"而不是"想清楚复杂问题"。对于在设计 Agent 工作流的开发者来说，这意味着 GPT-5.5 更适合作为执行层工具，深度推理链路上可能还需要别的搭配。

对于开发者而言，现在最值得盯的是 API 开放时间和配套安全策略——特别是 OpenAI 会怎么处理高级 Agent 能力在 API 层面的访问控制边界。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送