GPT-5.5
GPT-5.5 是由 OpenAI 发布的 AI 模型,发布时间为 2026-04-23,定位为 推理大模型,参数规模约为 0.0B,上下文长度为 1000K,采用 不开源 许可。
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
| 类型 | 适用条件 | 输入 | 输出 |
|---|---|---|---|
| 文本 | - | $5.00/ 1M | $30.00/ 1M |
| 类型 | 适用条件 | 输入 | 输出 |
|---|---|---|---|
| 文本 | - | $2.50/ 1M | $15.00/ 1M |
| 类型 | 适用条件 | 输入 | 输出 |
|---|---|---|---|
| 文本 | - | $12.50/ 1M | $75.00/ 1M |
| 类型 | 有效期 | 写入 | 读取 |
|---|---|---|---|
| 文本 | 5m | $6.25/ 1M | $0.500/ 1M |
| 文本 | 1h | $6.25/ 1M | $0.500/ 1M |
GPT-5.5 当前已收录的代表性评测结果包括 ARC-AGI-2(1 / 49,得分 85)、Terminal Bench 2.0(1 / 37,得分 82.70)、FrontierMath(2 / 57,得分 51.70)。 本页还汇总了参数规模、上下文长度与 API 价格,便于结合评测结果与部署约束一起判断模型适配度。
OpenAI 于北京时间4月24日正式发布 GPT-5.5,内部代号"Spud"。距离 GPT-5.4 发布只有大约六周,这个节奏说明头部实验室现在基本上是滚动迭代而不是等大版本攒够了再发。GPT-5.5 即日起向 ChatGPT 的 Plus、Pro、Business 和 Enterprise 用户以及 Codex 用户开放,GPT-5.5 Pro 面向 Pro、Business 和 Enterprise。API 这边因为需要额外的网络安全防护验证,暂时没有同步上线,OpenAI 说"很快"会跟上。
GPT-5.5 是闭源专有模型,OpenAI 没有公开参数量,架构细节也没有披露,这是 GPT-5 系列一贯的做法。
上下文窗口: API 端为 100 万 token,Codex 环境下为 40 万 token。值得注意的是,100 万 token 的上下文是需要显式配置开启的实验性特性,不配置的话默认走标准窗口,开发者接入时需要留意。
支持的模态: 输入支持文本和图像,输出为文本。
推理模式: GPT-5.5 在 ChatGPT 中以"Thinking"形式暴露,支持多档思考时长调节。Plus 和 Business 用户可以选 Standard 和 Extended 两档,Pro 用户额外多出 Light 和 Heavy 两档。Codex 另有 Fast Mode,延迟降低 1.5 倍,但价格是标准的 2.5 倍。
定价(API 端,即将开放):
版本输入输出
GPT-5.5 标准$5 / 百万 token$30 / 百万 token
GPT-5.5 Pro$30 / 百万 token$180 / 百万 token
Batch / Flex标准价 × 50%标准价 × 50%
Priority标准价 × 250%标准价 × 250%
对比参考:GPT-5.4 的定价是输入 $2.50 / 输出 $15,GPT-5.5 标准版整整贵了一倍。但 OpenAI 也说了,完成同等任务的 token 消耗会更少,实际综合成本的增幅会低于这个倍数——高吞吐量场景还是要跑一下自己的业务数据再做判断。
OpenAI 联席总裁 Greg Brockman 在发布会上把 GPT-5.5 定位成"新一类智能",但具体说的是:在更少外部引导下完成更复杂的多步任务。说白了就是之前需要手把手给指令,现在可以把一个半成品任务丢给它,让它自己去拆解、规划、执行。
官方列出的重点改进方向有四个:Agentic Coding(代码工程)、Computer Use(计算机操控)、通用知识工作,以及科学研究辅助。单 token 延迟和 GPT-5.4 持平,但完成同样任务消耗的 token 数更少——这个组合是这次升级的核心卖点之一。
OpenAI 公布的几个核心数据值得看一下。
知识工作 Agent 类:GDPval(覆盖 44 个职业类别的知识工作任务评测)得分 84.9%;OSWorld-Verified(真实计算机环境自主操控)78.7%;Tau2-bench Telecom(复杂客服工作流,无提示词调优)98.0%。生物信息学数据分析基准 BixBench 上,OpenAI 称在已公布成绩的模型里排第一。
和 GPT-5.4 相比,进步最大的几个基准是:ARC-AGI-2 提升了 11.7 个百分点、MCP Atlas 提升 8.1 个百分点、Terminal-Bench 2.0 提升 7.6 个百分点。ARC-AGI-2 本身是刻意设计来抵抗快速饱和的通用推理基准,这个幅度的增长不算小。
GPT-5.5 Pro 在 BrowseComp 上得分 90.1%,FrontierMath Tier 4 得分 39.6%。
不过,切换到纯推理场景,情况就没那么好看了。Humanity's Last Exam(无工具条件)上,GPT-5.5 Pro 得分 43.1%,低于 Claude Opus 4.7 的 46.9%,和 Mythos Preview 的 56.8% 差距更明显。也就是说,GPT-5.5 在 Agent 执行和工具调用场景上有优势,但在不依赖工具的纯学术推理上,OpenAI 目前并不领跑。
第三方评测平台 BenchLM.ai 把 GPT-5.5 放在 112 个模型综合排行榜的第 5 位,总分 89/100。最强项是 Agentic 类任务(第 2),最弱项是多模态与有根基理解(第 64),和上面的分析对得上。
代码工程场景,OpenAI 的说法是 GPT-5.5 能更好地理解系统架构和故障节点,知道改哪里、改了之后会影响哪里。早期测试显示,同样的 Codex 任务 GPT-5.5 需要的重试次数更少,token 消耗也更低。
计算机操控方面,OSWorld-Verified 78.7% 在目前公开有成绩的模型里是比较靠前的。有早期测试团队用 GPT-5.5 批量审阅了数千份文档,另一个团队把每周商业报表的处理流程压缩节省了 5 到 10 小时。
Nvidia 内部测试中把 GPT-5.5 描述为"首席参谋"型工具——可以驱动已经在内部作为员工角色运行的 AI Agent。Nvidia 副总裁 Justin Boitano 说该模型已经经过了数周的内部测试。
OpenAI 这次专门强调了科研辅助,首席研究官 Mark Chen 说 GPT-5.5 在科学与技术研究工作流上"有实质性提升",药物发现是点名的应用方向之一。
一个比较有说服力的案例是:一个配了定制推理框架的 GPT-5.5 内部版本,参与发现了拉姆齐数(Ramsey Numbers)的一个新证明。拉姆齐数是组合数学里的核心研究对象,这个案例说明模型的贡献已经不只是整理信息,而是在数学推理生成层面有了真实的参与。当然这是内部特化版本,和通用产品端的能力不能直接划等号。
另一个案例,一位免疫学教授用 GPT-5.5 Pro 分析了一个包含 62 个样本、近 2.8 万个基因的基因表达数据集,产出了包含关键洞察和研究问题的完整研究报告,他说这个工作原本要团队花几个月时间。
安全副总裁 Mia Glaese 的表态是:API 部署"需要不同的安全防护措施",公司正在和合作伙伴对接大规模服务的安全需求。
背景很清楚:距 Anthropic 宣布 Claude Mythos Preview 不到两周——Mythos 因为具备高级网络安全攻击识别能力,已经限制了访问范围,只向受信任的合作伙伴和政府机构开放。OpenAI 发布前对近 200 家早期合作伙伴做了红队测试,覆盖网络安全和生物风险两个高风险领域。在当前的监管气候下,API 端口做额外的安全验证是正常操作,不算意外。
GPT-5.5 是一次以 Agent 执行能力为核心的定向升级,不是全面碾压式的代际跃迁。ARC-AGI-2、MCP Atlas、Terminal-Bench 2.0 的增益,加上 OSWorld-Verified 78.7%,指向的是一个在实际工程和任务自动化场景里更可用的执行型模型。
但在 Humanity's Last Exam 上落后于 Anthropic Opus 4.7 和 Mythos Preview 这件事,说明 GPT-5.5 的能力分布有清晰的结构性特征:它更擅长"做事"而不是"想清楚复杂问题"。对于在设计 Agent 工作流的开发者来说,这意味着 GPT-5.5 更适合作为执行层工具,深度推理链路上可能还需要别的搭配。
对于开发者而言,现在最值得盯的是 API 开放时间和配套安全策略——特别是 OpenAI 会怎么处理高级 Agent 能力在 API 层面的访问控制边界。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
