GPT-5.5
GPT-5.5(代号 Spud)是 OpenAI 于 2026 年 4 月发布的旗舰推理模型,专为 Agent 编程、计算机操控与知识工作设计,支持 100 万 token 上下文。本页收录完整基准评测、API 定价与模型解读。
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
| 类型 | 适用条件 | 输入 | 输出 |
|---|---|---|---|
| 文本 | - | $5.00/ 1M | $30.00/ 1M |
| 类型 | 适用条件 | 输入 | 输出 |
|---|---|---|---|
| 文本 | - | $2.50/ 1M | $15.00/ 1M |
| 类型 | 适用条件 | 输入 | 输出 |
|---|---|---|---|
| 文本 | - | $12.50/ 1M | $75.00/ 1M |
| 类型 | 有效期 | 写入 | 读取 |
|---|---|---|---|
| 文本 | - | - | $0.500/ 1M |
| 文本 | 5m | $6.25/ 1M | $0.500/ 1M |
| 文本 | 1h | $6.25/ 1M | $0.500/ 1M |
GPT-5.5 当前已收录的代表性评测结果包括 ARC-AGI-2(1 / 58,得分 85)、Terminal Bench 2.0(1 / 43,得分 82.70)、FrontierMath(2 / 60,得分 51.70)。 本页还汇总了参数规模、上下文长度与 API 价格,便于结合评测结果与部署约束一起判断模型适配度。
OpenAI 于北京时间 4 月 24 日正式发布 GPT-5.5,内部代号"Spud"。距 GPT-5.4 发布不过六周,头部实验室已从"大版本攒够再发"切换成了滚动迭代模式。
OpenAI 联席总裁 Greg Brockman 把 GPT-5.5 定位为向"agentic 与直觉式计算"迈进的关键一步,核心叙事只有一句话:在更少外部引导下完成更复杂的多步任务。以前需要手把手给指令,现在可以把一个半成品任务直接交给它,让它自己拆解、规划、执行、检查、再继续。
首席研究官 Mark Chen 补充,本次重点改进集中在四个方向:Agentic Coding、Computer Use、通用知识工作,以及科学研究辅助。单 token 延迟与 GPT-5.4 持平,但完成同样任务消耗的 token 数更少——"更贵但更省"是官方卖点,高吞吐量场景建议用自己的业务数据实测再做判断。
关于 GPT-5.5 Pro 有一点值得注意:它并非独立训练的更大模型,而是同一底层模型在推理时启用**并行测试时计算(parallel test-time compute)**后得到的高精度模式。定价是标准版的六倍,买的是计算时长而不是参数规模。
API 定价方面,有一个结构化模块里没有体现的隐藏成本:超过 272,000 个输入 token 的请求,整个会话会按 2 倍输入 + 1.5 倍输出计费,长上下文场景需要提前测算。数据驻留(区域端点)另加 10% 费率。
Agent 执行类基准上,GPT-5.5 的进步是真实的:相比 GPT-5.4,ARC-AGI-2 提升了 11.7 个百分点,Terminal-Bench 2.0 提升 7.6 个百分点,MCP Atlas 提升 8.1 个百分点。OSWorld-Verified(真实计算机操控)78.7%,在目前公开有成绩的模型中处于前列。
但切换到纯推理场景,结构性短板同样清晰。Humanity's Last Exam(无工具条件)上,GPT-5.5 Pro 得分 43.1%,低于 Claude Opus 4.7 的 46.9%,与 Mythos Preview 的 56.8% 差距更明显。第三方平台 BenchLM.ai 的综合榜(112 个模型)也印证了这一点:Agentic 类任务排第 2,多模态与有根基理解排第 64。
这个能力分布有清晰的实践含义:GPT-5.5 更适合作为执行层工具,负责规划、操控、工具调用和多步任务完成;深度推理链路如果对准确率要求高,综合选型仍有必要。
OpenAI 在发布时格外强调了科研方向,这里有两个具体案例可以帮助判断能力边界:一是配了定制推理框架的 GPT-5.5 内部版本,参与发现了拉姆齐数(Ramsey Numbers)的一个新证明,这是组合数学的核心研究对象,说明模型贡献已不只是检索与整理,而是在推理生成层面有了真实参与;二是一位免疫学教授用 GPT-5.5 Pro 分析了包含 62 个样本、近 2.8 万个基因的基因表达数据集,产出了含关键洞察与研究问题的完整报告,他表示原本需要团队花费数月。
两个案例都值得打折扣看:前者是内部特化版本,后者是单个专家的主观评估。但方向上指向的是同一件事:模型正在从"搜索替代品"向"协作型研究工具"转变。
这是本次发布周期里影响最深远的变化,却容易被技术性能讨论掩盖。
4 月 27 日,微软与 OpenAI 正式修订协议,结束自 2019 年以来长达七年的 Azure 排他授权。4 月 28 日,OpenAI 随即宣布与 AWS 扩大战略合作:GPT-5.5 和 GPT-5.4 在 Amazon Bedrock 上线限量预览,Codex 首次进入多云环境,同步推出 Amazon Bedrock Managed Agents powered by OpenAI。AWS 获得 OpenAI Frontier 企业 Agent 平台的独家第三方分发权,双方还在联合开发跨调用保留上下文的有状态运行时环境(Stateful Runtime Environment)。
对企业开发者的直接意义是:有 AWS 存量承诺消费的团队现在可以直接在 Bedrock 调用 GPT-5.5,复用现有 IAM、PrivateLink 和审计体系,不需要另开 OpenAI 账户。OpenAI 产品正式进入多云可选格局,企业侧的供应链集中度风险也随之重新分布。
GPT-5.5 是一次以 Agent 执行能力为核心的定向升级,不是全面碾压式的代际跃迁。对大多数场景,最值得关注的实际上不是 benchmark 排名的微小变化,而是:token 效率提升能否覆盖价格翻倍的成本、长上下文的隐藏计费规则、以及 Bedrock 上架带来的企业采购路径变化。这三件事对实际部署决策的影响,远比又赢了哪个 benchmark 更实质。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
