OpenAI发布ChatGPT Agent系统:一个新模型驱动的系统,可以写代码运行代码,使用浏览器订票,写PPT、做excel的全能Agent
OpenAI刚刚发布了一个全新的AI Agent产品,称为ChatGPT Agent。这个全新的Agent系统可以控制我们的电脑,然后使用电脑上的浏览器、PPT、Excel等工具帮我们完成一些日常的工作,从头开始帮我们完成一些非常复杂的任务。根据OpenAI的描述,这个Agent系统的目标未来是一个通用的Agent,而这些能力未来将会随着这个产品不定期更新。

ChatGPT Agent产品介绍
OpenAI此次发布的这个Agent系统的产品名字就叫ChatGPT Agent,这个系统可以帮助我们完成如下任务:
- 查看我的日历并根据最新消息向我简要介绍即将召开的客户会议
- 计划并购买食材制作四人份日式早餐
- 分析三个竞争对手并制作幻灯片
类似这种任务发出之后,ChatGPT 将智能地导航网站、过滤结果、在需要时提示我们进行登录、运行代码、进行分析,甚至提供可编辑的幻灯片和电子表格来总结其发现。
总之, ChatGPT Agent的目标是端到端交付:自然语言输入一个目标,最终输出可编辑文件(PPT/XLSX)、数据报告、预订凭证等。
这些看起来我们稀松平常的任务,对于大模型来说挑战非常大。以“买食材做一顿三口之家的晚餐” 为例,人类能瞬间调用生活常识:三口之家的食量、营养搭配、烹饪时间、预算范围,甚至孩子的挑食偏好。
但对AI而言,这等同于在黑暗中拼凑一幅动态拼图——它需将模糊的意图转化为精确操作:从理解“晚餐”的地域文化隐含要求(中餐?西餐?),到动态适配电商网站的库存、价格、配送时效;从绕过验证码陷阱,到支付时自动合并优惠券。每个环节的失误都可能导致任务崩溃:若错估份量则食材浪费,选错登录方式则流程中断,支付超时则订单失效。简单任务背后,是跨常识推理、实时决策与对抗性环境的三重压力。
ChatGPT Agent背后的技术:o3家族的新模型驱动,Deep Research、Operator和ChatGPT三者的融合
根据OpenAI官网的介绍,ChatGPT Agent是核心是统一智能体系统,它把此前的Operator 的图形界面操作能力、Deep Research 的深度调研能力以及 ChatGPT 的自然语言交互完全融合。
这三者也不是简单的融合,首先是OpenAI训练了一个新的模型,这个模型是o3家族系列的一员,是一个未命名的模型,该模型通过强化学习(RL)在需要多种工具协作的复杂任务上进行了训练,从而整合了多种能力。
为了开发这个新的Agent系统,OpenAI将原来的Operator和DeepResearch小组的团队人员合并,形成了20-35人的小组,专门用来完成这个新的Agent系统。
为什么OpenAI要把DeepResearch和Operator合二为一?
过去,Operator 和 deep research 各自拥有独特优势:Operator 可以在网页上滚动、点击、输入;deep research 则擅长分析与总结信息。然而,它们各自只适合特定场景:Operator 无法深入分析或撰写详尽报告,而 deep research 无法与网站交互来细化结果,也无法访问需要用户登录的内容。事实上,OpenAI发现许多用户尝试用 Operator 处理的查询,其实更适合 deep research,于是他们将两者的长处合二为一。
通过在 ChatGPT 中整合这些互补能力,并引入额外工具,就可以在单一模型里解锁了全新的功能。它现在可以主动“动手”上网——点击、筛选、收集更精准、更高效的结果。你也可以在同一对话中,从简单的聊天自然过渡到直接要求它执行操作。但是如前所述,为了解锁这部分能力,OpenAI整合了两个小组并为此训练了一个新的模型来驱动。
OpenAI为ChatGPT Agent配备了一整套工具,包括:
• 视觉浏览器:通过图形界面与网页互动;
• 文本浏览器:用于更轻量的、基于推理的网页查询;
• 终端命令行工具:可直接运行命令;
• 直接 API 调用:这部分主要类似function calling之类的能力;
• ChatGPT Connector:可连接 Gmail、GitHub 等应用和app,让 ChatGPT 根据你的提示找到相关信息并纳入回答。
从上面这些工具也可以看到,ChatGPT Agent的目标就是像人类一样使用电脑或者手机,完成我们平常的任务。
ChatGPT Agent系统比单纯的模型+工具能力更强
尽管这不是OpenAI第一个Agent产品,但是OpenAI认为这是他们走向Agent的一大步,这是他们第一个配备了文本浏览器、视觉浏览器和终端(terminal)工具的Agent系统。
换言之,OpenAI为ChatGPT提供了一个虚拟机环境,里面有不同的浏览器工具和终端工具,ChatGPT可以自由的从推理过程切换到使用工具,或者从工具使用切换到推理过程中,来完成复杂的任务。这种模式比此前的为模型配置工具的方式更加强大。
官网给出了ChatGPT Agent和其它系统在不同复杂任务上的对比结果,ChatGPT Agent比简单的工具使用的GPT模型好很多。例如,在人类最后的难题的测试(HLE)上,ChatGPT Agent得分41.6,比此前的OpenAI家族的模型得分高很多。虽然不如Grok Heavy的44.4分,但是也是目前全球第二强的系统了:

在全球最难的数学评测FrontierMath测试中结论也是类似:

当然,还有很多评测中也是类似结论,这里我们就不一一对比了。简单的表格如下:
评测集 | ChatGPT Agent得分 | 对比组 | 提升幅度 |
---|---|---|---|
Humanity’s Last Exam | 41.6% → 44.4%* | Deep Research (26.6%) | +67% |
FrontierMath(顶尖数学) | 27.4% | o4-mini (19.3%) | +42% |
DSBench(数据分析) | 89.9% | 人类基线 (64.1%) | 超人类25.8% |
SpreadsheetBench | 45.5% (支持.xlsx编辑) | Copilot in Excel (20%) | +127% |
投行建模任务 | 71.3% | Deep Research (55.9%) | +28% |
注:并行8次尝试取最优结果(Oracle策略)
ChatGPT Agent的实测总结
我们也从很多收集了这个ChatGPT Agent的一些实际使用案例,供大家参考:
案例名称 | 类别 | 简要描述 | 使用结果 |
---|---|---|---|
在线超市购物计划 | 个人用途 | 用户让 Agent 规划并下单购买烤肉晚餐所需食材(通过 Tesco)。 | Agent 自动登录、选购、加入购物车并成功结账,包含甜点。 |
每周膳食规划与下单 | 个人用途 | Agent 根据用户日程安排规划每周餐食并自动下单。 | 成功生成完整膳食计划并完成线上超市下单流程。 |
奢侈品/礼物购物任务 | 个人用途 | 用户要求 Agent 寻找复古灯具、订购鲜花等礼物。 | 部分成功,有登录或支付失败情况,暴露目前的限制。 |
营销内容自动生成 | 职业/工作场景 | 从 Instagram 链接中提取文案,并生成 Canva 海报模板。 | 提取准确、设计自动生成,效率远超旧方案(Operator)。 |
竞争对手分析演示文稿 | 职业/工作场景 | Agent 被要求调研 3 个竞争对手并生成 SWOT 分析幻灯片。 | 成功输出完整可编辑的 PowerPoint 文件。 |
表格 / 幻灯片自动化 | 职业/工作场景 | 用户让 Agent 创建财务表格和商业汇报用的 PPT。 | 自动生成文件,可直接使用,大大节省时间。 |
销售话术角色扮演 Agent | 自动化 / 市场营销 | Agent 模拟客户异议处理对话,供销售练习使用。 | 效果“非常好”,被用于培训真实销售人员。 |
销售会议分析 Agent | 自动化 / 市场营销 | 分析 Zoom 会议记录,检查是否符合脚本及语气标准。 | 提供具体反馈和改进建议,提升会议质量。 |
每日语音简报助手 | 自动化 / 市场营销 | 每天早上自动发送语音简报:新闻、天气、日程、交通等信息。 | 完整自动化晨间信息获取,节省用户大量时间。 |
客服工单分类 Agent | 新兴(客服支持) | 根据工单内容自动分类并路由至对应客服人员。 | 提升响应效率并减轻人工负担。 |
财报解析 Agent | 新兴(金融分析) | 将复杂的财务报表解析为通俗易懂的摘要报告。 | 成功转化为结构化摘要,适合非财务背景人员阅读。 |
广告投放优化 Agent | 新兴(市场运营) | 自动监控广告效果并给出优化建议(如 Google/Facebook 投放)。 | 实时跟踪并提供可执行的策略改进建议。 |
ChatGPT Agent的限制和收费方式
当然,OpenAI官方也给出了ChatGPT Agent当前的一些问题和限制,主要包括:
- 幻灯片功能(Beta):
- 格式简易,需手动优化美观度
- 暂不支持基于模板修改(仅全新生成)
- 预览与导出文件偶现样式偏差
- 执行错误:复杂任务可能中途失败(提供部分结果)
- Deep Research兼容:原“深度研究”模式保留于下拉菜单
当前的Operator服务保留数周后关闭,功能整合至ChatGPT Agent ,但是Deep Research作为Agent子模式保留(速度慢但分析更细)。
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
