DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
页面导航
大模型列表GPT-5.5
GP

GPT-5.5

推理大模型

GPT-5.5

发布时间: 2026-04-23更新于: 2026-05-02 13:16:40.7243,230
在线体验GitHubHugging FaceCompare
模型参数
未披露
上下文长度
1000K
中文支持
支持
推理能力

GPT-5.5(代号 Spud)是 OpenAI 于 2026 年 4 月发布的旗舰推理模型,专为 Agent 编程、计算机操控与知识工作设计,支持 100 万 token 上下文。本页收录完整基准评测、API 定价与模型解读。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

GPT-5.5

模型基本信息

推理过程
支持
思考模式
思考水平 · 极高 (Extra-High) (默认)常规模式思考水平 · 低 (Low)思考水平 · 中 (Medium)思考水平 · 高 (High)思考水平 · 最高 (Max)
上下文长度
1000K tokens
最大输出长度
131072 tokens
模型类型
推理大模型
发布时间
2026-04-23
模型文件大小
暂无数据
MoE架构
否
总参数 / 激活参数
暂无数据 / 不涉及
知识截止
暂无数据
GPT-5.5

开源和体验地址

代码开源状态
不开源
预训练权重开源
不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
https://chatgpt.com/
GPT-5.5

官方介绍与博客

官方论文
Introducing GPT‑5.5
DataLearnerAI博客
OpenAI 发布 GPT-5.5:代号
GPT-5.5

API接口信息

接口速度
3/5
💡默认单位:$/100万 tokens。若计费单位不同,则以供应商公开的原始标注为准。
了解不同定价模式详解
标准模式
类型适用条件输入输出
文本-$5.00/ 1M$30.00/ 1M
批量模式
类型适用条件输入输出
文本-$2.50/ 1M$15.00/ 1M
加速模式
类型适用条件输入输出
文本-$12.50/ 1M$75.00/ 1M
缓存定价Prompt缓存
类型有效期写入读取
文本--$0.500/ 1M
文本5m$6.25/ 1M$0.500/ 1M
文本1h$6.25/ 1M$0.500/ 1M
GPT-5.5

评测结果

GPT-5.5 当前已收录的代表性评测结果包括 ARC-AGI-2(1 / 58,得分 85)、Terminal Bench 2.0(1 / 43,得分 82.70)、FrontierMath(2 / 60,得分 51.70)。 本页还汇总了参数规模、上下文长度与 API 价格,便于结合评测结果与部署约束一起判断模型适配度。

思考模式
工具使用
联网能力

综合评估

共 12 项评测
评测名称 / 模式
得分
排名/总数
ARC-AGI
低
76.20
23 / 65
ARC-AGI
中
92.20
10 / 65
ARC-AGI
高
94.50
5 / 65
ARC-AGI
极高
95
3 / 65
GPQA Diamond
高
93.60
6 / 175
ARC-AGI-2
低
33.30
27 / 58
ARC-AGI-2
中
70.40
11 / 58
ARC-AGI-2
高
83.30
5 / 58
ARC-AGI-2
极高
85
1 / 58
HLE
高
41.40
42 / 149
HLE
高工具
52.20
10 / 149
ARC-AGI-3
高
0
2 / 6

数学推理

共 3 项评测
评测名称 / 模式
得分
排名/总数
FrontierMath
高工具
51.70
2 / 60
FrontierMath - Tier 4
高工具
35.40
7 / 80
FrontierMath - Tier 4
极高
35.40
7 / 80

编程与软件工程

共 1 项评测
评测名称 / 模式
得分
排名/总数
SWE-Bench Pro - Public
高工具
58.60
3 / 36

Agent能力评测

共 1 项评测
评测名称 / 模式
得分
排名/总数
τ²-Bench - Telecom
高工具
98
5 / 35

AI Agent - 信息收集

共 1 项评测
评测名称 / 模式
得分
排名/总数
BrowseComp
高工具联网
84.40
5 / 43

AI Agent - 工具使用

共 2 项评测
评测名称 / 模式
得分
排名/总数
Terminal Bench 2.0
高工具
82.70
1 / 43
OSWorld-Verified
高工具
78.70
2 / 14

生产力知识

共 1 项评测
评测名称 / 模式
得分
排名/总数
GDPval-AA
高
84.90
5 / 20
查看评测深度分析与其他模型对比

和其他模型对比

  • 前代版本GPT-5.5 vs GPT-5.412 个评测
  • 同期模型GPT-5.5 vs Opus 4.711 个评测
  • 同期模型GPT-5.5 vs Gemini 3.1 Pro Preview10 个评测
  • 前代版本GPT-5.5 vs GPT-5.210 个评测
  • 前代版本GPT-5.5 vs GPT-5.110 个评测
  • 同期模型GPT-5.5 vs Claude Mythos Preview6 个评测

想自定义其他组合?打开对比工具

GPT-5.5

发布机构

OpenAI
OpenAI
查看发布机构详情
GPT-5.5

模型解读

OpenAI 于北京时间 4 月 24 日正式发布 GPT-5.5,内部代号"Spud"。距 GPT-5.4 发布不过六周,头部实验室已从"大版本攒够再发"切换成了滚动迭代模式。


定位与核心变化

OpenAI 联席总裁 Greg Brockman 把 GPT-5.5 定位为向"agentic 与直觉式计算"迈进的关键一步,核心叙事只有一句话:在更少外部引导下完成更复杂的多步任务。以前需要手把手给指令,现在可以把一个半成品任务直接交给它,让它自己拆解、规划、执行、检查、再继续。

首席研究官 Mark Chen 补充,本次重点改进集中在四个方向:Agentic Coding、Computer Use、通用知识工作,以及科学研究辅助。单 token 延迟与 GPT-5.4 持平,但完成同样任务消耗的 token 数更少——"更贵但更省"是官方卖点,高吞吐量场景建议用自己的业务数据实测再做判断。

关于 GPT-5.5 Pro 有一点值得注意:它并非独立训练的更大模型,而是同一底层模型在推理时启用**并行测试时计算(parallel test-time compute)**后得到的高精度模式。定价是标准版的六倍,买的是计算时长而不是参数规模。

API 定价方面,有一个结构化模块里没有体现的隐藏成本:超过 272,000 个输入 token 的请求,整个会话会按 2 倍输入 + 1.5 倍输出计费,长上下文场景需要提前测算。数据驻留(区域端点)另加 10% 费率。


基准成绩背后的结构性判断

Agent 执行类基准上,GPT-5.5 的进步是真实的:相比 GPT-5.4,ARC-AGI-2 提升了 11.7 个百分点,Terminal-Bench 2.0 提升 7.6 个百分点,MCP Atlas 提升 8.1 个百分点。OSWorld-Verified(真实计算机操控)78.7%,在目前公开有成绩的模型中处于前列。

但切换到纯推理场景,结构性短板同样清晰。Humanity's Last Exam(无工具条件)上,GPT-5.5 Pro 得分 43.1%,低于 Claude Opus 4.7 的 46.9%,与 Mythos Preview 的 56.8% 差距更明显。第三方平台 BenchLM.ai 的综合榜(112 个模型)也印证了这一点:Agentic 类任务排第 2,多模态与有根基理解排第 64。

这个能力分布有清晰的实践含义:GPT-5.5 更适合作为执行层工具,负责规划、操控、工具调用和多步任务完成;深度推理链路如果对准确率要求高,综合选型仍有必要。


科研辅助:两个值得记录的案例

OpenAI 在发布时格外强调了科研方向,这里有两个具体案例可以帮助判断能力边界:一是配了定制推理框架的 GPT-5.5 内部版本,参与发现了拉姆齐数(Ramsey Numbers)的一个新证明,这是组合数学的核心研究对象,说明模型贡献已不只是检索与整理,而是在推理生成层面有了真实参与;二是一位免疫学教授用 GPT-5.5 Pro 分析了包含 62 个样本、近 2.8 万个基因的基因表达数据集,产出了含关键洞察与研究问题的完整报告,他表示原本需要团队花费数月。

两个案例都值得打折扣看:前者是内部特化版本,后者是单个专家的主观评估。但方向上指向的是同一件事:模型正在从"搜索替代品"向"协作型研究工具"转变。


渠道格局重塑:AWS Bedrock 与 Azure 独家授权终止

这是本次发布周期里影响最深远的变化,却容易被技术性能讨论掩盖。

4 月 27 日,微软与 OpenAI 正式修订协议,结束自 2019 年以来长达七年的 Azure 排他授权。4 月 28 日,OpenAI 随即宣布与 AWS 扩大战略合作:GPT-5.5 和 GPT-5.4 在 Amazon Bedrock 上线限量预览,Codex 首次进入多云环境,同步推出 Amazon Bedrock Managed Agents powered by OpenAI。AWS 获得 OpenAI Frontier 企业 Agent 平台的独家第三方分发权,双方还在联合开发跨调用保留上下文的有状态运行时环境(Stateful Runtime Environment)。

对企业开发者的直接意义是:有 AWS 存量承诺消费的团队现在可以直接在 Bedrock 调用 GPT-5.5,复用现有 IAM、PrivateLink 和审计体系,不需要另开 OpenAI 账户。OpenAI 产品正式进入多云可选格局,企业侧的供应链集中度风险也随之重新分布。


DataLearner 的判断

GPT-5.5 是一次以 Agent 执行能力为核心的定向升级,不是全面碾压式的代际跃迁。对大多数场景,最值得关注的实际上不是 benchmark 排名的微小变化,而是:token 效率提升能否覆盖价格翻倍的成本、长上下文的隐藏计费规则、以及 Bedrock 上架带来的企业采购路径变化。这三件事对实际部署决策的影响,远比又赢了哪个 benchmark 更实质。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码