DataLearner logoDataLearnerAI
Latest AI Insights
Model Leaderboards
Benchmarks
Model Directory
Model Comparison
Resource Center
Tools
LanguageEnglish
DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

Products

  • Leaderboards
  • Model comparison
  • Datasets

Resources

  • Tutorials
  • Editorial
  • Tool directory

Company

  • About
  • Privacy policy
  • Data methodology
  • Contact

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

Privacy policyTerms of service
Contents
Contents
  1. Home/
  2. Blog List/
  3. Blog Detail

2026年5月份最新AI Agent系统设计与技术进展研究报告

2026/05/19 17:17:21
2,728 views
AIAgentReports

最新 AI Agent 系统设计与技术进展研究报告

本报告来自ChatGPT的DeepResearch整理,仅供参考。

执行摘要

AI Agent 在 2024–2026 年间出现了一个非常清晰的范式收敛:从“带工具调用的聊天模型”演进为“带会话、工具、记忆、审批、安全边界和评测闭环的运行时系统”。Anthropic 将这一差别明确区分为 workflow 与 agent:前者的控制流由代码预先定义,后者则允许模型动态决定下一步、选择工具并调整路径;OpenAI 则把 agent 定义为能够规划、调用工具、在专家之间协作并保持足够状态以完成多步工作的应用。这个定义收敛,基本解释了为什么近两年的工程重点已经从 prompt 本身转向“运行时+评测+安全”三个层面。

从架构上看,最值得关注的不是“更大的单体 agent”,而是模块化运行时的兴起。Anthropic 的 Managed Agents 将 session、harness、sandbox 解耦;LangGraph 强调 durable execution、human-in-the-loop 和 persistence;Google 的 Agent Platform/ADK 与 Microsoft Agent Framework 都在把 agent 开发抽象成更接近传统软件工程的有状态编排运行时。换言之,AI Agent 的主战场已经从“单次推理质量”转向“长时执行可靠性、可恢复性、可观测性与安全边界”。

从算法上看,2023 年奠定了 ReAct、Toolformer、Self-Refine、Tree of Thoughts、Voyager 等基础;而 2024–2026 年的真正推进来自多轮交互训练与测试时计算扩展:WebRL 将在线 RL 引入网页 agent,KALM 和离线 RL 工作尝试从 rollout 中蒸馏策略,STEP-HRL 与 HiPER 等工作把层级强化学习重新带回 agent 训练,近年的多智能体 debate 则在“更大测试时计算预算”这一方向上持续探索。

评测体系也在快速成熟。过去常见的“只看最终回答是否正确”已经明显不够:Google Vertex AI 已把 trajectory evaluation 作为一等公民,支持 exact/in-order/any-order、precision、recall、single-tool-use、latency、failure 等指标;Anthropic 在多智能体研究系统里强调 end-state、LLM-as-a-judge 与小样本快速迭代;而 GAIA、WebArena、VisualWebArena、OSWorld、τ-bench、BFCL、AgentDojo、Online-Mind2Web、Mind2Web 2、SWE-bench Verified 等基准,已经把 agent 的能力拆解到真实网页、GUI、工具调用、软件工程、策略遵循与安全鲁棒性等维度。

就产业落地而言,编码代理与研究代理目前最先形成高价值闭环。原因并不神秘:软件工程环境更容易提供可验证反馈,研究任务则天然适合并行搜索。Anthropic 的公开工程总结表明,多智能体研究系统在并行广度查询上显著优于单 agent,但代价是 token 开销成倍上升;OpenAI、Anthropic、Google、AWS、Salesforce 则分别在编码、企业流程、客户服务、法律、基础设施优化等场景把 agent 推到了产品级。

最重要的判断是:未来 2–5 年,真正决定 agent 成败的,不会是单一“最强模型”,而是五件事的组合能力——稳定的工具接口、可恢复的有状态运行时、以 end-state/trajectory 为核心的评测闭环、强制审批与最小权限安全边界,以及能把高成本自治限定在高价值任务上的经济学设计。公开资料已经相当一致地指向这一结论。

概念、定义与分类

Anthropic 在其“Building effective agents”中提出了一个非常实用的工程定义:workflow 是模型和工具被预先编排在固定代码路径中的系统;agent 则是模型能够动态决定过程、使用工具并控制完成方式的系统。OpenAI 的 Agents SDK 文档进一步把 agent 概括为:能够规划、调用工具、在专家之间协作,并保留足够状态以完成多步工作。近年的综述则把 tool use、planning、feedback learning、memory、multi-agent organization 视为统一 taxonomy 的核心维度。

据此,当前 AI Agent 可以从四个轴来分类。第一是控制自主性:从严格受控工作流,到单智能体自治,再到多智能体协同。第二是环境耦合方式:从文本推理,到 API/tool agents,再到网页/桌面/移动端 computer-use agents。第三是运行时归属:本地执行、自托管、托管云运行时,以及本地—云混合。第四是状态机制:无状态单轮、带会话历史、多层记忆(工作记忆、长期记忆、外部状态库)以及显式 artifact/file-based state。这个分类已经能较好覆盖 OpenAI、Anthropic、Google、AWS、Microsoft 与主流开源框架的公开设计。

一个更细的实践分类是按任务性质划分。研究/搜索型 agent 倾向于 breadth-first 并行探索与证据压缩;交易/流程型 agent 强依赖 API 正确性、策略遵循和 end-state;编码 agent 具有最强的自动验证潜力,因为测试、编译、lint 和 diff 本身就是天然 reward signal;computer-use agent 则最困难,因为它们同时面临 GUI grounding、操作知识、视觉理解与环境不稳定。GAIA、OSWorld 与 Online-Mind2Web 的结果共同说明:通用 agent 在真实环境中的能力仍远低于人类,尤其是在开放网页和操作系统场景。

下表给出一个工程上最有用的架构模式归纳。它不是官方单一定义,而是根据公开论文、产品文档和框架能力做的综合抽象。

架构模式摘要

模式控制形态适用任务主要优点主要缺点代表系统代表来源
单体单循环一个模型在同一循环内思考、选工具、执行中短程任务、原型、轻量编码/搜索实现简单,时延低,易于快速试错长程任务容易上下文膨胀,恢复与审计较弱smolagents、部分 CLI coding agents
模块化工作流规则/图式先定义,再由模型填充局部决策企业流程、审批、强约束业务可控、可测、可审计灵活性受限,复杂任务上限较低LangGraph、ADK、Agent Framework
Planner–Executor规划器分解目标,执行器调用工具并回反馈长程任务、研究、复杂操作分工清晰,便于 replanning规划错误会系统性传播Magentic-One、Claude Research、CoCounsel 新版
Tool-using grounded工具/API/检索是一等公民事实型、事务型、企业数据任务降低幻觉,能连接外部世界工具描述差/权限过大时风险高OpenAI Agents/Responses、Claude Agent SDK、Bedrock AgentCore
记忆增强长时任务会话日志、持久化 memory、artifact store多会话项目、研究、长期代理提升连续性与恢复能力记忆漂移、压缩损失、隐私负担Managed Agents、LangGraph、Claude Code
多智能体编排协调者调度多个专长 agent 并行工作并行检索、多专业协作、复杂开放任务扩展测试时计算,增加广度token 成本高,协调复杂,常不适合强依赖共享上下文的任务Claude Research、Magentic-One、CrewAI

架构模式与核心组件

Anthropic、Microsoft、Google 与 LangChain 近两年的公开设计有一个共同趋势:把“模型”从“运行时”中分离出来。Anthropic Managed Agents 通过 session、harness、sandbox 的三分结构,把“脑”(模型与 harness)与“手”(沙箱、MCP 工具)解耦,并把会话日志外置为可恢复状态;Microsoft Agent Framework 把 Agent、Tool、Session、Telemetry 抽象成 typed primitives;LangGraph 则把 durable execution、persistence、human-in-the-loop 置于核心;Google ADK/Agent Platform 也在将 agent 开发软件工程化。换句话说,最新主流系统不再把 agent 视为一个 prompt,而将其视为有状态、可编排、可恢复的软件系统。

Rendering diagram…

上图概括的是近两年最常见的 planner–executor 结构:规划、工具选择、动作执行、观察归一化、状态更新和安全审批分层存在。它的公开代表包括 Magentic-One 的 Orchestrator-worker 结构、Anthropic Research 的 lead agent + subagents,以及 Thomson Reuters 下一代 CoCounsel Legal 所采用的 “plan / select tools / retrieve authoritative content / adapt mid-workflow” 模式。

LLM 骨干与后训练

Agent 的核心“脑”仍是基础模型,但 2025–2026 的产品文档越来越少把“换更强模型”当成唯一解,而是强调 context engineering + eval + targeted post-training。OpenAI 在 Responses/Agents/RFT 文档中把 agent 设计、评测和 reinforcement fine-tuning 明确连接起来;Anthropic 的 context engineering/managed agents 工程文章则反复强调 harness 假设会随着模型进步而“过时”,因此系统必须允许上下文压缩、重取、切分与恢复策略动态演化。

在实践上,近两年的最佳经验不是“先 fine-tune”,而通常是:先用 prompt/context/tooling 把系统做成可测形态,再用 SFT、DPO 或 RFT 去优化局部子策略,比如工具选择格式、任务分解质量、代码修复策略或策略遵循行为。DPO 给出了比传统 RLHF 更轻量的偏好优化路径;OpenAI 的 RFT 则把 programmable grader 直接引入训练。

检索增强、工具 API 与 grounding

RAG 仍然重要,但最新 agent 系统已经从“静态检索后生成”转向“动态检索—工具调用—证据回流—再规划”的多步 grounded loop。Anthropic 在多智能体研究系统文中明确对比了传统静态 RAG 与其动态多步搜索架构;OpenAI 的 Responses API 把 web search、file search、computer use 等 agentic primitive 前置;Google 与 Anthropic 分别推动了 A2A 与 MCP,说明“工具与上下文互操作”已成为生态层的主线。

MCP 的重要性在于,它把“模型访问外部能力”的接口标准化;A2A 的重要性则在于,它试图把“agent 与 agent 的协作”标准化。Google 文档已经把 A2A 作为多智能体系统的推荐参考,并提到该协议于 2025 年 6 月捐赠给 Linux Foundation;Anthropic 和 OpenAI 的产品也都在不同层面接入 MCP。未来 agent 生态的互操作,很大概率会沿着 “MCP 管工具,A2A 管协作” 的方向演进。这个判断是基于当前官方文档的工程推断,而不是既成行业标准。

行动空间、观测处理与状态存储

当前主流 agent 的行动空间至少包括四类:结构化 API 调用、代码/文件编辑、浏览器/GUI 操作,以及跨系统消息/任务动作。相应地,观测也不再只是文本:WebArena 和 VisualWebArena 把网页导航与视觉信息引入评测;OSWorld 则把真实操作系统中的 GUI、文件 I/O、跨应用工作流纳入环境;Codex 与 Claude Code 系列产品则进一步把本地终端、浏览器、图像输入、工作区文件树、Git 状态和插件/MCP 工具都当作可观察世界的一部分。

在状态/记忆方面,近年的收敛非常明显:短期上下文不足以支持长程任务,因此需要外部状态对象或记忆库。Anthropic Managed Agents 明确把 session 视为“不是 Claude 上下文窗口本身,而是窗口外可重取的 durable log”;Claude Code 提供 CLAUDE.md 作为持续项目记忆;LangGraph 提供 persistence 与 comprehensive memory;Google 在 Gemini/Vertex 侧提供 context cache 与 Memory Bank。工程上,好的 agent 往往不是“记住所有内容”,而是把高价值状态以可检索对象形式显式保存。

安全模块与人类在环

到 2026 年,审批与沙箱已不再是“补丁”,而是 agent 设计的内建层。OpenAI 把 approvals 定义为 tool call 级的人类复核路径;Codex 用 sandbox 作为本地动作边界,并在 Windows 上专门公开了其安全沙箱设计;Anthropic 在 Managed Agents 中把凭据移出沙箱,改由 vault/proxy 模式处理;Haystack 也把 human-in-the-loop 设计成可以拦截、修改或拒绝工具参数的原语。对高风险任务来说,最小权限、默认拒绝、显式审批正在变成主流设计前提。

算法进展

如果把 2023–2026 的 agent 算法进展抽成一条主线,那么它大致是:从提示式推理,走向交互式规划;从单次输出优化,走向多轮轨迹优化;从单 agent 推理,走向多 agent 测试时计算扩展。 CoT 证明了中间推理步骤能显著提升复杂推理;ReAct 把 reasoning 与 acting 交错起来;Toolformer 让模型学会何时调用工具;Tree of Thoughts 让搜索显式化;Self-Refine 让测试时自我反馈成为独立范式;Voyager 则把自动课程、技能库和长期累积带入 embodied/lifelong setting。今天大家熟知的 planner、reflection、skill library、tool loop,本质上都能追溯到这一时期。

接下来一轮推进来自偏好优化与强化学习。RLHF 与 InstructGPT 证明了“对齐用户偏好”对泛化帮助很大;DPO 以更轻量的目标函数替代传统 reward model + PPO;OpenAI 的 RFT 则把“可编程评分器”直接用于 reasoning model 的任务定制。对 agent 而言,这意味着训练目标不再必须是“正确答案文本”,而可以是“正确动作、正确轨迹、正确 end-state 或正确多轮行为”。这正是 agent learning 与普通 chat tuning 的关键差别。

2024 年之后,网页与多轮交互训练成为新热点。WebRL 将自演化课程、结果监督 reward model 和自适应 online RL 引入网页 agent 训练,在 WebArena-Lite 上让开源小模型大幅追近甚至超过当时的闭源基线;KALM 则尝试把 LLM imaginary rollouts 变成离线 RL 可学习的知识;ACL 2025 的“Offline RL for LLM Multi-step Reasoning”与 2025 年底的 on-policy expert corrections 进一步表明:单纯依赖静态 expert trajectories 的模仿学习,容易在多轮环境中因 covariate shift 失效。

另一个强趋势是层级化与多智能体化。STEP-HRL 通过子任务级全局进度与局部进度摘要来实现 step-level agent RL;HiPER 则显式拆分 high-level planning 与 low-level execution;而多智能体 debate 的最新工作——例如针对 MAD 的系统化框架 MALLM,以及 2026 年的 Self-Debate Reinforcement Learning——都在探索如何让模型在测试时或训练时从不同推理轨迹中受益。值得强调的是,这一方向还远未收敛:它在高难推理任务上具有潜力,但在真实 long-horizon production agent 里,token 成本、协调不稳定与评测困难仍是硬约束。

Rendering diagram…

这条时间轴概括了过去三年的主要脉络:2023 年是基础认知与工具调用范式确立;2024 年是 benchmark 与 engineering pattern 爆发;2025–2026 年则是“产业级运行时 + 更真实 benchmark + 多轮训练/评测”并进。对应来源包括 CoT、ReAct、Toolformer、Voyager、GAIA、WebArena、VisualWebArena、OSWorld、BFCL、τ-bench、Magentic-One、Online-Mind2Web、Mind2Web 2、A2A、Codex、AlphaEvolve、Anthropic Research/Managed Agents,以及 STEP-HRL/SDRL 等。

系统工程与评测

在系统工程层面,最关键的变化是:长时任务的可恢复执行 已从“可选增强”变成“基础要求”。Anthropic Managed Agents 通过把 session 外置到 durable log,实现 harness 崩溃后 wake(sessionId) 式恢复;LangGraph 把 durable execution 作为核心能力;OpenAI 提供 background mode 来支撑长时 reasoning/agent 任务;Microsoft Agent Framework 和 Google Agent Platform 也都在以会话、持久状态、编排与 telemetry 为核心设计。内部工程数据虽然属于厂商自报,但方向非常一致:如果没有可恢复运行时,生产级 agent 很难成立。

性能工程也正在从“平均响应时延”转向对 TTFT、总任务时长、工具并行度、失败恢复率 的综合优化。Anthropic 报告称,在其 brain–hands 解耦架构中,p50 TTFT 约下降 60%,p95 下降超过 90%;同一篇文章也说明,按需调用容器而不是为每个会话预先 provisioning 全套环境,是降低用户体感时延的关键。另一方面,Anthropic 的多智能体研究系统又指出,多智能体在复杂 research query 上可把时间降到原来的一个很小分数,但 token 开销会明显上升。这组事实合在一起说明:Agent 的性能优化不是单一目标,而是 latency、parallelism、token economics 与可靠性的多目标平衡。

可观测性与测试正快速走向“一等公民”。OpenAI Agents SDK 默认 tracing,记录 LLM generations、tool calls、handoffs、guardrails 和 custom events;CrewAI 与 LangGraph/LangSmith 也分别将 tracing/observability 与 eval 集成到平台中;Anthropic 的公开工程经验则强调,小样本 eval 应该尽早建立,因为 agent 改动往往会带来很大的行为跃迁,早期 20 个真实查询就足以看出显著变化。对于生产环境,full tracing、decision-pattern monitoring、rainbow deployment 已经是比传统 LLM app 更接近复杂分布式系统的做法。

在评测方面,最新共识是“三层并行”:final response、trajectory、end-state。Google Vertex AI 已将 trajectory evaluation 工具化,提供 exact match、in-order match、any-order match、precision、recall、single-tool-use,并默认加上 latency 与 failure;Anthropic 针对会修改外部状态的 agent 强调 end-state evaluation,认为不应对所有中间步骤做僵硬规定;Online-Mind2Web 则表明在真实 open web 上,现有 agent 的能力被许多沙箱 benchmark 高估了,同时其 LLM-as-a-judge 与人工评判约有较高一致性。

基准比较

基准关注能力环境类型常见指标主要价值主要局限代表来源
GAIA通用助理式问题求解、网页与多模态、工具使用开放式问答/检索正确率检验“像人一样完成现实任务”非事务型,难覆盖状态修改
WebArena文本网页自主导航自托管网页环境任务成功率早期 web agent 标准环境与真实开放网页仍有差距
VisualWebArena视觉接地网页导航视觉+网页成功率把 screenshot/UI 理解纳入评测仍是受控环境
OSWorld真实 OS 与跨应用工作流Ubuntu/Windows/macOS 电脑环境执行成功率最接近通用 computer-use结果显示人与模型差距仍大
SWE-bench Verified软件工程代码修复真实仓库/测试通过率编码 agent 最重要公共基准之一以代码修复为主,不代表所有 IDE 工作
τ-benchtool-agent-user 多轮交互与策略遵循领域 API + 用户模拟任务成功、pass^k评估一致性与规则遵循域数量仍有限
BFCL函数/工具调用能力工具调用数据集tool-call 正确性准确测量 function calling 基础能力不等价于完整自治 agent
AgentDojoprompt injection 与 agent 安全动态攻击/防御环境任务成功、安全属性安全红队评测代表作仍需与真实生产系统结合
Online-Mind2Web开放网页真实任务live web任务成功、LLM-judge揭示沙箱 benchmark 的乐观偏差实时网页导致复现难度更高
Mind2Web 2agentic search 长程真实研究任务实时网页+信息综合答案正确性、来源归因、Agent-as-a-Judge目前 deep research 系统的重要基准任务构建昂贵,更新频率有限

对于人类评测协议,Anthropic 与 Mind2Web 2 的经验很有代表性:人工评测不应被自动评测替代,但应被用于校准自动评测。 Anthropic 在 research 系统中使用单次 LLM-judge 打分并比较其与人类一致性,同时保留人工测试来发现偏源、幻觉和异常失败;Mind2Web 2 则用 Agent-as-a-Judge 解决真实网页与长答案组织的自动评分问题。高质量评测不再是“人工或自动二选一”,而是 rubric 明确的人类—自动双层体系。

开源与商业系统比较

先说明两个假设。其一,“Hermes”在公开资料中存在同名项目;本报告按 Nous Research 的 Hermes Agent 处理,因为它是最符合“近期 AI Agent 产品/系统”语境、且有明确官方仓库和产品描述的项目。其二,商业产品的“许可证”通常并不以开源许可证形式公开,因此表中对商业系统统一标为“商用产品/公开源码许可证未披露”;这并不等价于法律意义上的完整许可审查。

系统比较总表

系统类型与定位运行形态关键能力互操作/安全特征授权/许可公开状态与成熟度判断主要来源
Claude Code商业编码 agent终端、IDE、桌面、浏览器读代码库、编辑文件、运行命令、集成开发工具支持 hooks、MCP、技能/记忆、Agent SDK;面向开发工作流产品许可未公开;相关 Agent SDK 仓库为 MIT产品级、文档完整、快速迭代
Claude Managed Agents商业托管运行时托管云会话长时任务、持久 session、sandbox、可恢复执行session/harness/sandbox 解耦;vault/proxy 凭据隔离商用产品2026 年重点平台能力
Codex 生态商业编码 agent + 开源 CLICLI、本地桌面、Web、移动端远程控制本地代码编辑、并行 threads、worktree、subagents、web search、cloud taskssandbox、approvals、安全治理;CLI 支持 MCP、插件CLI Apache-2.0;App/Web 为商用产品产品级,CLI 开源度高
Gemini Enterprise Agent Platform / ADK企业 agent 平台 + 开源 SDKGoogle Cloud 托管 + code-first SDK构建、扩展、治理、优化 agents;支持评测A2A 推荐、内置 agent eval、ADK 开源平台商用;ADK Apache-2.0平台级、企业导向强
Amazon Bedrock AgentCore企业 agent 基础设施AWS 托管Runtime、控制台/API/CLI、MCP 支持session isolation、MCP server/runtime 集成商用产品企业基础设施层,文档完整
Microsoft Agent Framework / AutoGen开源 SDK + 前代框架.NET/Python SDK;可分布式单/多 agent 工作流、状态管理、telemetry、类型安全Agent Framework 为 AutoGen 后继;AutoGen 进入 maintenance mode开源 SDK;公开许可证本文未逐项核验;AutoGen 仓库公开Agent Framework 为新主线;AutoGen 仅维护
LangGraph开源编排运行时程序库/自托管graph-based orchestration、durable execution、memory、HITL与 LangSmith 结合做 tracing/evalsMIT高成熟度开源运行时
CrewAI开源多 agent 编排框架程序库 + AMP 平台Role-based agents、Crews、Flows、控制面tracing、observability、on-prem/cloud 选项MIT社区与企业双线推进
OpenHands开源编码 agent 平台SDK、CLI、本地 GUI、Cloud本地或云中执行真实工程任务,支持多代理与 ephemeral workspace企业特性包含 RBAC、工单/协作集成;模型无关MIT活跃 OSS,面向工程落地
Hermes Agent开源自改进 agent自托管、本地/云、聊天入口built-in learning loop、技能生成/改进、跨会话搜索、用户建模多模型/多平台接入,强调持续学习MIT活跃 OSS,但独立第三方评测较少
OpenClaw开源个人代理/网关本地优先、自托管、跨消息渠道多渠道收发、路由到独立 agents、voice/canvas/toolspairing allowlist、sandbox for non-main sessions、本地网关MIT活跃 OSS,偏个人助手/系统集成
smolagents开源轻量 agent 库Python 程序库code agents、极简抽象、模型/模态/工具无关支持多种沙箱与 MCPApache-2.0轻量高灵活,适合快速研究原型

从这张表可以看到两个重要趋势。第一,产品与框架正在分层:Codex、Claude Code 这样的“终端/桌面级产品”更贴近开发者日常,而 LangGraph、ADK、Agent Framework、Bedrock AgentCore 则更像“agent runtime/平台层”;二者是互补而不是互斥。第二,开源系统越来越强调自托管与模型无关性,商业系统则更强调治理、审批、会话、长期执行和企业集成。这个分化与传统云原生生态很像:开源负责可塑性,云平台负责运营复杂度。

同时也要看到,这些系统并不都在解决同一个问题。Claude Code、Codex、OpenHands面向的是软件工程自治;Claude Managed Agents、Agent Platform、Bedrock AgentCore 面向的是运行时和企业编排;Hermes、OpenClaw 更接近个人代理/持续陪伴型 agent;smolagents 和 CrewAI 则偏研究和应用搭建框架。如果不区分这一点,系统比较很容易失真。

行业落地、安全治理与未来路线图

从公开案例看,AI Agent 的最成熟落地方向已经非常清楚:软件工程、客服/支持、法律检索与文书、企业知识流程、科学发现/基础设施优化、以及部分高自主度机器人/航天任务。但不同场景的证据质量并不相同:NASA/JPL 与学术 benchmark 通常可信度更高;厂商 customer stories 与内部 eval 则更适合用来理解 ROI 轮廓,而不宜直接当作可横向比较的科学证据。

案例研究

领域代表部署采用的 agent 形态公开成效证据性质主要来源
软件工程OpenAI Codex 在 CyberAgent、NVIDIA 等组织中的应用编码 agent + 本地/云工作区 + 审批/评审CyberAgent 案例披露了明显效率提升;NVIDIA 表示工程师把 Codex 用作复杂工程工作的默认工具之一厂商客户案例,自报为主
客服与金融支持Intercom + Anthropic + AWS;Gradient Labs多轮工具型支持 agentIntercom 案例称部分客户问题 resolution 可达 90%;Gradient Labs 用多模型运行金融支持工作流官方案例,自报为主
法律Thomson Reuters 新一代 CoCounsel Legal + Claude Agent SDKPlanner–tool–retrieval–citation 工作流官方说明其可计划任务、选择工具、检索权威内容并生成带验证引用的工作产出官方公告/合作新闻
科学发现与基础设施Google DeepMind AlphaEvolveevolutionary coding agent已在 Google 基础设施中带来持续收益:例如公开提到回收约 0.7% 全球计算资源,并改进 Spanner/编译优化官方技术报告与博客,自报为主
航天/机器人NASA Perseverance 首次 AI 规划火星车行驶受控高自主规划系统2025 年 12 月完成首批由生成式 AI 规划的异星行驶任务;AI 用轨道影像与高程信息生成 waypointsNASA/JPL 官方发布

安全、对齐与治理

安全上,OWASP 对 LLM/GenAI 应用的 Top 10 已经较系统地概括了当前 agent 面临的主要风险:prompt injection、insecure output handling、training data poisoning、model DoS、supply chain vulnerabilities 等。对 agent 来说,这些问题会比普通 chat app 更严重,因为 agent 不只是“说”,还会“做”,并且往往拥有外部系统权限。

工程上的一线防御已经比较明确。第一层是权限最小化:Anthropic Managed Agents 把凭据移出沙箱,OpenAI 用 sandbox 和 approvals 缩小动作面,OpenClaw 默认对陌生私信走 pairing/allowlist。第二层是人类在环:OpenAI、Haystack、LangGraph 都把审批中断设计成框架原语。第三层是轨迹级观测与审计:因为 agent 的关键风险不只在输出文本,更在完整轨迹、工具参数、隐式重试与上下文漂移。

治理上,企业与前沿实验室正在形成两条并行路径。对企业应用,NIST 的 Generative AI Profile 提供了风险管理框架;对 frontier model 与更高危能力,OpenAI 的 Preparedness Framework 与 Anthropic 的 Responsible Scaling Policy 提供了公司级自我治理框架。需要注意的是,这些框架主要面向严重危害与前沿能力治理,并不自动等价于每个企业 agent 应用的完整合规方案;在落地层面,组织仍需额外建设权限模型、日志留存、审批制度、供应链审计和 red-teaming。

开放挑战

当前最核心的技术挑战仍然是真实环境中的长时可靠性。OSWorld 显示最优模型与人类之间仍有巨大差距;Online-Mind2Web 则提醒我们,不少网页 agent 成绩受限于 benchmark 设计与环境静态性,现实能力要弱得多。对 computer-use agent 而言,GUI grounding、弱观察、环境变动与异常处理仍是主瓶颈。

第二个挑战是多智能体的经济性与协调复杂度。Anthropic 的公开经验表明,多智能体对 breadth-first 研究任务非常有效,但 token 成本可远高于单次聊天,而且对于共享上下文密集、强同步依赖高的任务并不一定划算;Microsoft 关于 tool-space interference 的讨论则进一步提示:多加工具、多加 agent 并不天然提升效果,反而可能因描述冲突与选择负担导致性能下滑。

第三个挑战是评测与复现。真实 agent 的合理轨迹常常不唯一,这使得“预设唯一正确路径”的评测天然偏窄;同时 live web/live systems 又会导致结果时变和复现困难。Google 的 trajectory metrics、Anthropic 的 end-state/LLM-as-judge、Mind2Web 2 的 Agent-as-a-Judge,实际上都在试图回答同一个问题:如何给非确定性、多路径、可操作外部状态的系统建立可靠质量门槛。这个问题到 2026 年仍远未彻底解决。

未来两到五年的研究与工程路线图

如果把未来两到五年的重点压缩成最有价值的路线图,我会把它分成“必须优先工程化”和“值得重点研究”两层。

优先路线图

时间窗口优先工程任务优先研究任务为什么优先
未来两年把 agent runtime 做成有状态、可恢复、可审批、可追踪系统;统一 session、sandbox、tool proxy、artifact store;建立 trajectory + end-state + human sample 的持续评测流水线在高价值狭域任务上训练局部子策略,如工具选择、任务分解、代码修复、策略遵循,而不是追求端到端全自治这是把 prototype 变成 production 的最短路径,也是当前官方平台和工程博客的一致结论
未来三到五年形成互操作标准栈,至少在 MCP/A2A、身份/权限、审计与工具描述质量上趋于规范;建立长期记忆与 artifact-first state 的标准模式推进 multi-agent test-time compute、hierarchical RL、鲁棒 debate、真实环境世界模型/模拟器与更稳定的开放环境 benchmark这些方向决定 agent 能否从“能做一些事”走向“长时稳定地做复杂事”

进一步收敛成一组可执行的优先事项,最值得先做的五件事是:先建评测再扩权限;先做模块化 planner–executor 再做多智能体;先把高风险工具纳入审批与最小权限,再谈自治;优先选择可以程序验证的场景获取 RL/RFT 信号;只有在任务天然可并行、单 agent 明显受上下文限制时,才引入多智能体编排。公开工程经验基本都支持这一排序。

推荐阅读

下面这组阅读材料最值得作为后续系统化深入的起点:

  • Anthropic《Building effective agents》:workflow 与 agent 的工程分界,适合做总纲。
  • Anthropic《How we built our multi-agent research system》:研究型 multi-agent 的最佳公开工程复盘之一。
  • Anthropic《Scaling Managed Agents: Decoupling the brain from the hands》:长时运行时设计的高质量一手资料。
  • OpenAI《A practical guide to building agents》与 Agents/Responses/RFT 文档:构建、评测、训练三位一体。
  • Magentic-One 技术报告:多智能体通用系统的代表性开放方案。
  • WebArena、VisualWebArena、OSWorld:网页与 computer-use agent 的关键 benchmark 链。
  • Online-Mind2Web 与 Mind2Web 2:理解“真实开放网页上 agent 其实还有多弱”的最好入口。
  • BFCL、τ-bench、AgentDojo:工具调用、策略遵循与安全评测的三类代表。
  • WebRL、STEP-HRL、SDRL:理解 2024–2026 agent learning 新趋势的代表工作。
  • NIST GenAI Profile、OWASP Top 10 for LLM Applications、OpenAI Preparedness、Anthropic RSP:安全治理的最小公共语境。

开放问题与限制

本报告优先采用 2024–2026 的论文、官方文档与工程博客,并补充 2023 年奠基性工作;因此某些 2022–2023 文献只作方法学背景使用。对于商业产品,很多“成熟度”“效果提升”“客户收益”来自供应商官方案例或内部评测,应理解为厂商自报证据,不宜与学术 benchmark 结果直接横向比较。尤其是 Anthropic Research 的内部 90.2% 提升、Managed Agents 的 TTFT 改善、以及 AlphaEvolve 的基础设施收益,都属于强参考价值但非独立复现证据。

“Hermes”在公开资料中存在同名项目;本报告按 Nous Research 的 Hermes Agent 处理。部分商业系统的完整源码许可未在公开文档中披露,表中因此标注为“商用产品/未公开/需确认”。此外,benchmark 与产品能力都处在快速变化之中,尤其是 Codex、Claude Code、Agent Platform 与公开 leaderboard 的细节,可能在未来数周内继续变化。

如需追踪最近几周的产品与治理动态,可参考下列报道。

DataLearner WeChat

Follow DataLearner WeChat for the latest AI updates

DataLearner 官方微信二维码
Back to Blog List

Related Blogs

  • 2026年5月份 AI Agent 产品中的记忆设计与工程实践
  • 2026年5月份全球AI Agent产品与工程实践的最新行业方向与技术路线研究
  • HTML是AI输出的新标准吗?一个来自Anthropic工程师的挑衅性论断
  • Moltbook 是什么?一个专为 AI Agent 或者说是 OpenClaw(前身为 Clawdbot 或 Moltbot)设计的社交网络,以及最有趣的讨论案例收集
  • AI编码领域的转变:Karpathy的2026年反思与Boris Cherny的Claude Code团队回应
  • 看特斯拉前AI总监、OpenAI前知名研究员Andrej Karpathy如何看AI大模型编程(Claude Code这样的工具):AI Agent正在重塑编码工作流,2026年的软件工程大变革
  • 大模型工具使用的三次进化:从 Function Calling 到程序化编排
  • 为什么大模型企业都在强调可以连续工作XX小时的Agent和模型?长时运行Agent解析(Long-Running Agents)

Hot Blogs

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署