OpenAI发布ChatGPT Agent系统:一个新模型驱动的系统,可以写代码运行代码,使用浏览器订票,写PPT、做excel的全能Agent

标签:#AIAgent##AIAgent系统##ChatGPTAgent##OpenAI# 时间:2025/07/19 09:03:39 作者:小木

OpenAI刚刚发布了一个全新的AI Agent产品,称为ChatGPT Agent。这个全新的Agent系统可以控制我们的电脑,然后使用电脑上的浏览器、PPT、Excel等工具帮我们完成一些日常的工作,从头开始帮我们完成一些非常复杂的任务。根据OpenAI的描述,这个Agent系统的目标未来是一个通用的Agent,而这些能力未来将会随着这个产品不定期更新。


[toc]

ChatGPT Agent产品介绍

OpenAI此次发布的这个Agent系统的产品名字就叫ChatGPT Agent,这个系统可以帮助我们完成如下任务:

  • 查看我的日历并根据最新消息向我简要介绍即将召开的客户会议
  • 计划并购买食材制作四人份日式早餐
  • 分析三个竞争对手并制作幻灯片

类似这种任务发出之后,ChatGPT 将智能地导航网站、过滤结果、在需要时提示我们进行登录、运行代码、进行分析,甚至提供可编辑的幻灯片和电子表格来总结其发现。

总之, ChatGPT Agent的目标是端到端交付:自然语言输入一个目标,最终输出可编辑文件(PPT/XLSX)、数据报告、预订凭证等。

这些看起来我们稀松平常的任务,对于大模型来说挑战非常大。以“买食材做一顿三口之家的晚餐” 为例,人类能瞬间调用生活常识:三口之家的食量、营养搭配、烹饪时间、预算范围,甚至孩子的挑食偏好。

但对AI而言,这等同于在黑暗中拼凑一幅动态拼图——它需将模糊的意图转化为精确操作:从理解“晚餐”的地域文化隐含要求(中餐?西餐?),到动态适配电商网站的库存、价格、配送时效;从绕过验证码陷阱,到支付时自动合并优惠券。每个环节的失误都可能导致任务崩溃:若错估份量则食材浪费,选错登录方式则流程中断,支付超时则订单失效。简单任务背后,是跨常识推理、实时决策与对抗性环境的三重压力。

ChatGPT Agent背后的技术:o3家族的新模型驱动,Deep Research、Operator和ChatGPT三者的融合

根据OpenAI官网的介绍,ChatGPT Agent是核心是统一智能体系统,它把此前的Operator 的图形界面操作能力、Deep Research 的深度调研能力以及 ChatGPT 的自然语言交互完全融合。

这三者也不是简单的融合,首先是OpenAI训练了一个新的模型,这个模型是o3家族系列的一员,是一个未命名的模型,该模型通过强化学习(RL)在需要多种工具协作的复杂任务上进行了训练,从而整合了多种能力。

为了开发这个新的Agent系统,OpenAI将原来的Operator和DeepResearch小组的团队人员合并,形成了20-35人的小组,专门用来完成这个新的Agent系统。

为什么OpenAI要把DeepResearch和Operator合二为一?

过去,Operator 和 deep research 各自拥有独特优势:Operator 可以在网页上滚动、点击、输入;deep research 则擅长分析与总结信息。然而,它们各自只适合特定场景:Operator 无法深入分析或撰写详尽报告,而 deep research 无法与网站交互来细化结果,也无法访问需要用户登录的内容。事实上,OpenAI发现许多用户尝试用 Operator 处理的查询,其实更适合 deep research,于是他们将两者的长处合二为一。

通过在 ChatGPT 中整合这些互补能力,并引入额外工具,就可以在单一模型里解锁了全新的功能。它现在可以主动“动手”上网——点击、筛选、收集更精准、更高效的结果。你也可以在同一对话中,从简单的聊天自然过渡到直接要求它执行操作。但是如前所述,为了解锁这部分能力,OpenAI整合了两个小组并为此训练了一个新的模型来驱动。

OpenAI为ChatGPT Agent配备了一整套工具,包括:
视觉浏览器:通过图形界面与网页互动;
文本浏览器:用于更轻量的、基于推理的网页查询;
终端命令行工具:可直接运行命令;
直接 API 调用:这部分主要类似function calling之类的能力;
ChatGPT Connector:可连接 Gmail、GitHub 等应用和app,让 ChatGPT 根据你的提示找到相关信息并纳入回答。

从上面这些工具也可以看到,ChatGPT Agent的目标就是像人类一样使用电脑或者手机,完成我们平常的任务。

ChatGPT Agent系统比单纯的模型+工具能力更强

尽管这不是OpenAI第一个Agent产品,但是OpenAI认为这是他们走向Agent的一大步,这是他们第一个配备了文本浏览器、视觉浏览器和终端(terminal)工具的Agent系统。

换言之,OpenAI为ChatGPT提供了一个虚拟机环境,里面有不同的浏览器工具和终端工具,ChatGPT可以自由的从推理过程切换到使用工具,或者从工具使用切换到推理过程中,来完成复杂的任务。这种模式比此前的为模型配置工具的方式更加强大。

官网给出了ChatGPT Agent和其它系统在不同复杂任务上的对比结果,ChatGPT Agent比简单的工具使用的GPT模型好很多。例如,在人类最后的难题的测试(HLE)上,ChatGPT Agent得分41.6,比此前的OpenAI家族的模型得分高很多。虽然不如Grok Heavy的44.4分,但是也是目前全球第二强的系统了:

chatgpt agent模型与其他模型在hle评测对比

在全球最难的数学评测FrontierMath测试中结论也是类似:

chatgpt agent与其他模型在frontiermath的对比

当然,还有很多评测中也是类似结论,这里我们就不一一对比了。简单的表格如下:

评测集 ChatGPT Agent得分 对比组 提升幅度
Humanity’s Last Exam 41.6% → 44.4%* Deep Research (26.6%) +67%
FrontierMath(顶尖数学) 27.4% o4-mini (19.3%) +42%
DSBench(数据分析) 89.9% 人类基线 (64.1%) 超人类25.8%
SpreadsheetBench 45.5% (支持.xlsx编辑) Copilot in Excel (20%) +127%
投行建模任务 71.3% Deep Research (55.9%) +28%

注:并行8次尝试取最优结果(Oracle策略)

ChatGPT Agent的实测总结

我们也从很多收集了这个ChatGPT Agent的一些实际使用案例,供大家参考:

案例名称 类别 简要描述 使用结果
在线超市购物计划 个人用途 用户让 Agent 规划并下单购买烤肉晚餐所需食材(通过 Tesco)。 Agent 自动登录、选购、加入购物车并成功结账,包含甜点。
每周膳食规划与下单 个人用途 Agent 根据用户日程安排规划每周餐食并自动下单。 成功生成完整膳食计划并完成线上超市下单流程。
奢侈品/礼物购物任务 个人用途 用户要求 Agent 寻找复古灯具、订购鲜花等礼物。 部分成功,有登录或支付失败情况,暴露目前的限制。
营销内容自动生成 职业/工作场景 从 Instagram 链接中提取文案,并生成 Canva 海报模板。 提取准确、设计自动生成,效率远超旧方案(Operator)。
竞争对手分析演示文稿 职业/工作场景 Agent 被要求调研 3 个竞争对手并生成 SWOT 分析幻灯片。 成功输出完整可编辑的 PowerPoint 文件。
表格 / 幻灯片自动化 职业/工作场景 用户让 Agent 创建财务表格和商业汇报用的 PPT。 自动生成文件,可直接使用,大大节省时间。
销售话术角色扮演 Agent 自动化 / 市场营销 Agent 模拟客户异议处理对话,供销售练习使用。 效果“非常好”,被用于培训真实销售人员。
销售会议分析 Agent 自动化 / 市场营销 分析 Zoom 会议记录,检查是否符合脚本及语气标准。 提供具体反馈和改进建议,提升会议质量。
每日语音简报助手 自动化 / 市场营销 每天早上自动发送语音简报:新闻、天气、日程、交通等信息。 完整自动化晨间信息获取,节省用户大量时间。
客服工单分类 Agent 新兴(客服支持) 根据工单内容自动分类并路由至对应客服人员。 提升响应效率并减轻人工负担。
财报解析 Agent 新兴(金融分析) 将复杂的财务报表解析为通俗易懂的摘要报告。 成功转化为结构化摘要,适合非财务背景人员阅读。
广告投放优化 Agent 新兴(市场运营) 自动监控广告效果并给出优化建议(如 Google/Facebook 投放)。 实时跟踪并提供可执行的策略改进建议。

ChatGPT Agent的限制和收费方式

当然,OpenAI官方也给出了ChatGPT Agent当前的一些问题和限制,主要包括:

  • 幻灯片功能(Beta)
    • 格式简易,需手动优化美观度
    • 暂不支持基于模板修改(仅全新生成)
    • 预览与导出文件偶现样式偏差
  • 执行错误:复杂任务可能中途失败(提供部分结果)
  • Deep Research兼容:原“深度研究”模式保留于下拉菜单

当前的Operator服务保留数周后关闭,功能整合至ChatGPT Agent ,但是Deep Research作为Agent子模式保留(速度慢但分析更细)。

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
相关博客