DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
目录
目录
  1. 首页/
  2. 博客列表/
  3. 博客详情

OpenAI 发布 GPT-5.5:代号"Spud",Agent 能力明显提升,API 因安全审查暂缓开放

2026/04/24 08:48:09
56 阅读
ChatGPTGPTGPT-5.5OpenAI

OpenAI 于北京时间4月24日正式发布 GPT-5.5,内部代号"Spud"。距离 GPT-5.4 发布只有大约六周,这个节奏说明头部实验室现在基本上是滚动迭代而不是等大版本攒够了再发。GPT-5.5 即日起向 ChatGPT 的 Plus、Pro、Business 和 Enterprise 用户以及 Codex 用户开放,GPT-5.5 Pro 面向 Pro、Business 和 Enterprise。API 这边因为需要额外的网络安全防护验证,暂时没有同步上线,OpenAI 说"很快"会跟上。

  • GPT-5.5的就基本信息
  • GPT-5.5基准测试情况:Agent 场景领先,纯推理存在明显差距
  • 编程和 Agent:花两倍价格值不值?
  • GPT-5.5的科研能力更强:已经不只是搜信息了
  • GPT-5.5发布总结:API 暂未上线,网页已经可以使用,免费用户暂时不可使用

GPT-5.5的就基本信息

GPT-5.5的上下文长度最高达到100万输入,不出意外应该还是128K的最大输出。不过需要注意的是,Codex里面的GPT-5.5的最高仅支持400K,100万是实验特性,需要手动开启。

GPT-5.5目前发布了2个版本,一个是标准版本的GPT-5.5,区分不同思考水平,一个是GPT-5.5 Pro版本,输入支持文本和图像,输出仅支持文本。

GPT-5.5 在 ChatGPT 中以"Thinking"形式暴露,支持多档思考时长调节。Plus 和 Business 用户可以选 Standard 和 Extended 两档,Pro 用户额外多出 Light 和 Heavy 两档。Codex 另有 Fast Mode,延迟降低 1.5 倍,但价格是标准的 2.5 倍。

OpenAI 联席总裁 Greg Brockman 在发布会上把 GPT-5.5 定位成"新一类智能",但具体说的是:在更少外部引导下完成更复杂的多步任务。说白了就是之前需要手把手给指令,现在可以把一个半成品任务丢给它,让它自己去拆解、规划、执行。

官方列出的重点改进方向有四个:Agentic Coding(代码工程)、Computer Use(计算机操控)、通用知识工作,以及科学研究辅助。

值得提一下的是,OpenAI 特别强调 GPT-5.5 的单 token 延迟和 GPT-5.4 持平,但完成同样任务消耗的 token 数更少。为什么说这个?因为GPT-5.5的接口价格比GPT-5.4翻了一倍!

GPT-5.5价格与同代系列对比,价格翻倍
GPT-5.5价格与同代系列对比,价格翻倍
数据来源:https://www.datalearner.com/ai-models/pretrained-models/gpt-5-5/analysis

涨价明显!

GPT-5.5基准测试情况:Agent 场景领先,纯推理存在明显差距

OpenAI 公布的几个核心数据值得看一下。

数据来源:https://www.datalearner.com/ai-models/pretrained-models/gpt-5-5/analysis

知识工作 Agent 类:GDPval(覆盖 44 个职业类别的知识工作任务评测)得分 84.9%;OSWorld-Verified(真实计算机环境自主操控)78.7%;Tau2-bench Telecom(复杂客服工作流,无提示词调优)98.0%。生物信息学数据分析基准 BixBench 上,OpenAI 称在已公布成绩的模型里排第一。

和 GPT-5.4 相比,进步最大的几个基准是:ARC-AGI-2 提升了 11.7 个百分点、MCP Atlas 提升 8.1 个百分点、Terminal-Bench 2.0 提升 7.6 个百分点。ARC-AGI-2 本身是刻意设计来抵抗快速饱和的通用推理基准,这个幅度的增长不算小。

不过,切换到纯推理场景,情况就没那么好看了。Humanity's Last Exam(无工具条件)上,GPT-5.5 Pro 得分 43.1%,低于 Claude Opus 4.7 的 46.9%,和 Mythos Preview 的 56.8% 差距更明显。也就是说,GPT-5.5 在 Agent 执行和工具调用场景上是有优势的,但在不依赖工具的纯学术推理上,OpenAI 目前并不领跑。

第三方评测平台 BenchLM.ai 把 GPT-5.5 放在 112 个模型综合排行榜的第 5 位,总分 89/100。最强项是 Agentic 类任务(第 2),最弱项是多模态与有根基理解(第 64),和上面的分析对得上。


编程和 Agent:花两倍价格值不值?

这次GPT-5.5的价格翻倍了,不太理解是因为模型本身变大了,还是单纯的想趁机涨价。这个价格目前已经超过了Opus 4.7了!也是可用的旗舰模型最贵的(Claude Mythos不可用)。

代码工程场景,OpenAI 的说法是 GPT-5.5 能更好地理解系统架构和故障节点,知道改哪里、改了之后会影响哪里。早期测试显示,同样的 Codex 任务 GPT-5.5 需要的重试次数更少,token 消耗也更低。这个说法有待验证,即使是真的,那GPT-5.5的成本应该也不低,毕竟价格翻倍,tokens能减少一半?非常怀疑。

计算机操控方面,OSWorld-Verified 78.7% 在目前公开有成绩的模型里是比较靠前的。有早期测试团队用 GPT-5.5 批量审阅了数千份文档,另一个团队把每周商业报表的处理流程压缩节省了 5 到 10 小时。

Nvidia 内部测试中把 GPT-5.5 描述为"首席参谋"型工具——可以驱动已经在内部作为员工角色运行的 AI Agent。这个描述不是说说而已,Nvidia 副总裁 Justin Boitano 说该模型已经经过了数周的内部测试。

定价上,API 端输入 $5 / 输出 $30(每百万 token),是 GPT-5.4($2.50/$15)的整整两倍。但结合 token 效率的提升,实际综合成本增幅会低于这个倍数,高吞吐量场景还是要具体测一下再做判断。

GPT-5.5的科研能力更强:已经不只是搜信息了

OpenAI 这次专门强调了科研辅助,首席研究官 Mark Chen 说 GPT-5.5 在科学与技术研究工作流上"有实质性提升",并点名药物发现是重点应用方向之一。

一个比较有说服力的案例是:一个配了定制推理框架的 GPT-5.5 内部版本,参与发现了拉姆齐数(Ramsey Numbers)的一个新证明。拉姆齐数是组合数学里的核心研究对象,这个案例说明模型的贡献已经不只是整理信息,而是在数学推理生成层面有了真实的参与。当然,这是内部特化版本,和通用产品端的能力不能直接划等号。

GPT-5.5发布总结:API 暂未上线,网页已经可以使用,免费用户暂时不可使用

OpenAI官方说API 部署"需要不同的安全防护措施",公司正在和合作伙伴对接大规模服务的安全需求。所以接口暂不上线。

简单总结一下,GPT-5.5 是一次以 Agent 执行能力为核心的定向升级,不是全面碾压式的代际跃迁。ARC-AGI-2、MCP Atlas、Terminal-Bench 2.0 的增益,加上 OSWorld-Verified 78.7%,指向的是一个在实际工程和任务自动化场景里更可用的执行型模型。和Qwen 3.6版本的升级很类似。或许,大模型的通用能力已经达到一个瓶颈了也说不定。

GPT-5.5更多信息参考DataLearnerAI的模型信息卡: GPT-5.5信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/gpt-5-5 GPT-5.5 Pro信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/gpt-5-5-pro

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

相关博客

  • OpenAI收入大揭秘:2024年收入40亿美金,2030年预计达到2000亿,年均复合增长超90%!ChatGPT占比将逐年下降!
  • GPT-5 模式与配额全解析:自动与手动 Thinking 的区别、不同用户的使用配额问题等
  • OpenAI正在测试一个新的o3模型:o3 alpha模型,实测编码和游戏能力十分突出
  • 最新消息显示OpenAI可能还在训练GPT-5,可能在今年年中发布GPT-5
  • OpenAI即将推出DALL·E Controls功能,可以更加精细化控制DALL·E图片生成的效果
  • OpenAI隐藏的一个ChatGPT新功能:在对话框中@任意GPTs,获得回答!一个巨大的由各种GPT组成的聊天世界即将到来
  • OpenAI可能即将增加按年付费的选项,一年的ChatGPT Plus仅需200美元
  • GPT-4在11月份以来变懒的原因可能已经找到:大模型可能会在节假日期间变得不愿意干活,工作日期间却更加高效

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署