2026年5月份最新AI Agent系统设计与技术进展研究报告
假设与范围。 本报告按用户要求以中文撰写,时间范围优先覆盖 2024–2026,并纳入若干对当前路线仍具决定性影响的 2023 奠基工作;不假设预算、组织规模或行业约束。报告优先采用近两年论文、顶会/期刊页面、arXiv 摘要页,以及 OpenAI、Anthropic、Google、AWS、Microsoft、Salesforce、NIST、OWASP 等一手文档。
-
核心判断一:当前最有效的 Agent 不是“万能单体”,而是“可组合、可观测、可约束”的系统。 Anthropic 在 2024 年的工程总结明确区分了 workflow 与 agent,并强调多数成功落地并不依赖复杂框架,而是依赖简单的组合模式;OpenAI、Google、AWS、Anthropic 的 2025–2026 平台也都把状态、工具、会话、追踪、审批与沙箱做成一等公民。 citeturn29view0turn31view3turn31view0turn32view0turn33view0turn39view1
-
核心判断二:从研究到工程,主旋律是“规划器 + 执行器 + 记忆/检索 + 工具 + 评测闭环”。 OpenAI 公开建议将 o-series 推理模型作为“planner”、低延迟 GPT 模型作为“doer”;Anthropic把增强型 LLM 视为以检索、工具、记忆为增广的基本构件;AWS、Google 也都在产品结构中显式暴露动作组、知识库、会话、记忆库与执行环境。 citeturn30view0turn29view0turn33view0turn32view0turn39view1
-
核心判断三:评测正在从“看最终答案”转向“看整条轨迹”。 WebArena、VisualWebArena、OSWorld、GAIA、SWE-bench Verified、τ-bench、BFCL、AgentDojo、Online-Mind2Web 等基准,分别把网页、GUI、通用助理、代码修复、函数调用、prompt injection 安全与在线真实网站评测纳入统一视野;Google Vertex AI 已把最终回复评测与轨迹评测分开建模。 citeturn4search8turn24search3turn4search18turn5search0turn4search11turn5search3turn6search4turn36view0turn26search2turn32view2
-
核心判断四:现实环境中的 Agent 仍远未“接近人类稳健性”。 GAIA 论文中,人类平均正确率为 92%,而当时带插件的 GPT-4 仅 15%;VisualWebArena 报告中最佳 VLM agent 仅 16.4%,人类约 88.7%;Online-Mind2Web 2025 进一步指出,在更接近真实用户的在线网页任务上,现有前沿 agent 多数只能完成约 30%,并显示既有基准可能高估了进展。 citeturn5search0turn24search3turn26search10turn26search2
-
核心判断五:但在“可验证、可约束、反馈可获得”的领域,Agent 已开始产生真实价值。 典型领域包括软件工程、客服、法律与科学/基础设施优化:OpenAI Codex 在云端隔离容器中执行编码任务;Intercom 报告客服场景的 AI resolution rates 可达 90%;Thomson Reuters 宣布下一代 CoCounsel Legal 基于 Anthropic Claude Agent SDK 重构;Google DeepMind 的 AlphaEvolve 已部署到数据中心调度与 TPU 设计流程,且在 Google 数据中心平均回收约 0.7% 的算力资源。 citeturn13search2turn14search0turn14search1turn39view0
-
核心判断六:未来两到五年,竞争焦点将从“谁回答得更好”转向“谁更能在真实系统里安全地行动”。 这要求协议层互操作(MCP、A2A)、运行时隔离、记忆治理、工具权限最小化、轨迹级评测、prompt injection 防御与组织级风险治理一起推进,而不是只靠更大的基座模型。 citeturn37view1turn37view2turn39view1turn34view0turn36view0turn35view0turn35view1turn35view2
总体上,Agent 正在从“提示工程的延伸”变成“一个新的应用系统栈”:上层是任务、角色与人机协作,中层是规划/检索/工具/记忆/安全模块,下层是运行时、会话、容器、日志、评测与治理。这个系统栈的成熟速度,正在快于“完全自治通用代理”的能力成熟速度。 citeturn29view0turn31view3turn32view0turn33view0turn39view1turn26search1turn26search7
定义与分类
一个对当下实践更有操作性的定义是:AI Agent 是一个以目标为中心、在闭环中接收观察、选择动作、调用工具、维护状态,并在多步过程中适应新信息的系统。 Anthropic 将其与“workflow”明确区分:前者由模型动态决定过程与工具使用,后者则由预定义代码路径编排;OpenAI 则把 agent 描述为会“规划、调用工具、跨专长协作并保留足够状态以完成多步工作”的应用;AWS 则把 agent 的运行分为预处理、编排、知识库查询/动作执行与后处理等阶段。 citeturn29view0turn31view3turn33view0
从研究综述看,当前 Agent 分类最有用的不是单一标签,而是按 五个维度 切分:自治程度、环境模态、动作空间、记忆机制、组织方式。关于规划维度的综述已把 LLM-agent 规划能力分为任务分解、计划选择、外部模块、反思与记忆;关于多代理维度的综述则把环境、角色、通信与能力增长机制作为核心观察轴。 citeturn18search1turn18search0turn18search2
值得强调的是,“Agent”与“Agentic AI”并不等价。就现在的一线产品与系统来说,真正大规模落地的多是“agentic systems”——也就是把 LLM、检索、规则、工具、容器、审计、审批和评测组合起来的系统,而不是一个可以在任何环境中完全自主运转的“通用代理”。这也是为什么 2025–2026 的平台文档普遍更强调 runtime、session、trace、guardrail、sandbox,而不是只强调模型本身。 citeturn29view0turn31view3turn31view1turn33view1turn39view1
架构模式与核心组件
当前最主流的架构范式可以概括成三层:任务分解与策略层、能力执行层、运行与治理层。上层决定“做什么”和“先后顺序”,中层决定“调用哪个工具/检索什么/如何执行”,下层保证“状态可恢复、动作可审计、风险可拦截”。Anthropic 的工程文章把这类模式梳理为 prompt chaining、routing、parallelization、orchestrator-workers、evaluator-optimizer;OpenAI 则公开建议把复杂任务交给推理模型规划,把执行性交给更快更便宜的 GPT 模型;Magentic-One、Bedrock multi-agent collaboration、本质上都是这种思想的不同实现。 citeturn29view0turn30view0turn38view0turn38view1
flowchart LR
U[用户目标] --> A{任务是否可预定义}
A -- 是 --> W[Workflow\nPrompt chaining / Routing / Parallelization]
A -- 否 --> P[Planner / Orchestrator]
P --> R[Retriever / Memory]
P --> T[Tool Router]
T --> E[Executor\nAPI / Browser / Shell / Code]
E --> O[Observation]
O --> P
P --> J[Judge / Guardrail / Human Review]
J -->|继续| P
J -->|终止/审批| F[Final Output]
上图所示的“planner–tool–observation–judge”闭环,几乎已经成为新一代 Agent SDK 与托管平台的公共形态:OpenAI Agents SDK 将 tools、handoffs、guardrails、state 和 tracing 作为核心抽象;AWS Bedrock Agents 把预处理、编排、观察、知识库/动作组与 trace 暴露为标准流程;Claude Managed Agents 甚至把 Agent / Environment / Session / Events 四个概念直接产品化。 citeturn31view3turn31view2turn33view0turn33view1turn39view1
核心组件方面,今天的 Agent 系统实际上是“多模块协同而非单模型独裁”。 尤其在生产系统里,LLM 只是策略与语言接口层,并不是全部能力来源。
最值得关注的新工程理念是 context engineering。Anthropic 2025 年把它定义为对有限上下文窗口进行持续策展与循环精炼的“艺术与科学”,强调长程 agent 不是简单地“把更多 token 塞进去”,而是要不断决定 什么该保留、压缩、遗忘、重取和外化为工具/记忆。这也是为什么会话、压缩、prompt caching、memory bank、episodic memory 这些机制在 2025–2026 全部上升为显式架构对象。 citeturn37view0turn39view1turn32view0turn33view2
算法进展
从算法演进看,Agent 研究的主线并不是单一“更强推理”,而是三条线并进:推理外显化与搜索、反馈与自我修正、环境交互式学习。其中最重要的变化是:研究社区正逐步从“单次回答质量”转向“闭环策略质量”,从而把 planning、tool use、reflection、memory 与 RL 连接成一条连续谱系。 citeturn18search1turn18search2turn24search4
需要特别指出两点。
第一,显式 CoT 的地位正在变化。它仍是 Agent 推理链条的历史基础,但 OpenAI 2026 的官方建议已明确指出:对于其 reasoning models,直接要求“step by step”并不一定提升效果,原因在于模型内部已做了相当部分的隐式推理。于是,今天更有价值的做法是:把系统级的中间状态保留为可检查的规划、工具调用、观察与评审轨迹,而不是盲目要求模型吐出冗长思维。 citeturn19search0turn30view0turn29view0
第二,强化学习的焦点正在从“偏好对齐”转向“环境适应”。SFT、DPO、RFT/RLHF 仍然重要,尤其适合把基础模型校准到函数调用格式、数据结构与策略边界;但网页、GUI、代码仓库和长时任务的“真能力”越来越依赖环境反馈、工具执行结果、自动验证器与分层控制。WebRL、Offline RL、STEP-HRL 代表的正是这条路线。AlphaEvolve 在算法发现问题上成功的原因也相似:它把 LLM 创造性与自动评估器结合,使学习信号客观而密集。 citeturn30view0turn3search10turn3search13turn3search11turn39view0
因此,未来 Agent 算法最重要的方向不是再发明一个新的 prompt 模板,而是把“搜索、反思、验证、奖励、记忆压缩”统一进可训练的闭环策略。 这也会直接影响系统设计:越来越多的运行时会把 evaluator、judge、sandbox、trajectory store 当成学习基础设施,而不只是调试工具。 citeturn29view0turn24search1turn32view2turn31view1
系统工程与评测
在工程层面,Agent 系统已经形成一套几乎独立于基础模型的 “新后端学”:可恢复执行、异步长任务、状态化会话、容器/文件系统、追踪、评测、人工审批、权限收缩。LangGraph 把 durable execution、streaming 与 human-in-the-loop 作为底层能力;OpenAI 提供 Responses API 的 stateful context、agentic loop、内置工具与 background mode,以及默认开启的 tracing;Google ADK 把 logging/metrics/traces、会话、Memory Bank、Agent Runtime 与 trajectory evaluation 纳入平台;AWS 则把 trace、sessions store、multi-agent collaboration 与 Guardrails 集成进 Bedrock/AgentCore。 citeturn7search0turn8search8turn31view0turn31view1turn10search0turn32view0turn32view1turn33view0turn33view1
延迟与可扩展性 的最有效策略,并不是简单堆更快的模型,而是:
一是 planner/doer 分离,把高智力节点集中到少数决策拐点;
二是 parallelization,让互相独立的子任务并行;
三是 状态压缩与缓存,尤其面向长时任务时的 prompt caching、compact context 与持久会话;
四是 异步执行,把长任务放到 background run 或 managed session 中。Anthropic、OpenAI、Google、AWS 的官方文档都已把这些能力显式化,这说明它们不再是“高级技巧”,而是生产 Agent 的标准配置。 citeturn29view0turn39view1turn31view0turn10search0turn32view0
测试与可复现性 则是另一个正在快速成熟的层面。OpenAI 的 agent evals 明确要求使用 traces、graders、datasets 和 eval runs;Google Vertex AI 则区分 final response evaluation 与 trajectory evaluation,并提供 exact match / in-order match / any-order match 等轨迹指标;AWS trace 直接暴露 agent sequence 的 rationale、actions、queries 与 observations。换句话说,“测试答案”已经不够,必须测试轨迹、工具参数、边界条件和副作用。 citeturn24search1turn24search17turn32view2turn33view1
对“人评协议”的理解也需要升级。当前主流有三种:静态人工金标、人工轨迹、在线 pairwise 偏好。VisualWebArena 采集了人类轨迹;BrowserArena 则把真实用户提交任务与 head-to-head 比较结合起来;Online-Mind2Web 提供了更强现实性的在线评测,并尝试用 LLM-as-a-judge 缓解人工成本。未来最可靠的评测协议,很可能是 自动执行 + 轨迹金标 + 人工抽样复核 + 安全红队 的组合。 citeturn24search11turn5search18turn26search2turn36view0
开源与商业系统对比
从生态格局看,2025–2026 已经出现明显分层:开源侧 更像“编排/运行时/实验框架”竞争,商业侧 更像“托管基础设施 + 企业连接器 + 安全治理 + 观测与运维”竞争。两侧正在通过 MCP、A2A 以及各自的 tracing/evals 接口逐步对齐。 citeturn37view1turn37view2turn31view1turn32view1turn33view1
从系统形态上看,开源与商业并不是“二选一”。更现实的组合方式是:用开源框架掌握编排与可移植性,用商业平台承接托管运行时、连接器、安全与审计。 这也是 MCP 与 A2A 之所以重要的原因:它们让“框架层”和“平台层”之间出现了真正可复用的接口标准。 citeturn37view1turn37view2turn37view3
安全治理与未来路线图
Agent 的风险已经明显超出传统聊天模型。OWASP 的 LLM Top 10 中,Prompt Injection、Insecure Output Handling、Sensitive Information Disclosure、Insecure Plugin Design、Excessive Agency 对 Agent 尤为关键;AgentDojo 则进一步证明,一旦代理要从不可信工具返回值中读取信息并继续行动,prompt injection 将从“内容安全问题”变成“控制流安全问题”。这也是 2025–2026 几乎所有主流平台都开始把 guardrails、HITL、沙箱、权限策略与运行时安全做成原生能力的根本原因。 citeturn36view1turn36view0turn31view2turn34view0turn33view3turn39view1
在治理框架上,NIST AI RMF 仍是企业与公共机构最稳健的参考底座,而 NIST 2024 生成式 AI Profile 已把 GenAI 的独特风险显式纳入;OpenAI 的 2025 Preparedness Framework 则把 Biological/Chemical、Cybersecurity、AI Self-improvement 等类别纳入跟踪,并新增 Long-range Autonomy 等研究类别;Anthropic 的 Responsible Scaling Policy 则采用分层防御、访问控制、实时与异步监测等路线。三者共同表明:Agent 治理将越来越像“系统安全工程”,而不是产品文案层面的“安全承诺”。 citeturn35view0turn35view1turn35view2
下面给出一个面向未来两到五年的精简路线图。
timeline
title AI Agent 技术与系统路线图
2023 : ReAct / Toolformer / Voyager / GAIA
2024 : Anthropic workflow taxonomy / WebArena / VisualWebArena / OSWorld / τ-bench / AgentDojo / MCP
2025 : Online-Mind2Web / BFCL / WebRL / Responses API / Codex / AlphaEvolve / A2A
2026 : Managed Agents / Agent Runtime + Memory Bank / AgentCore / 企业级治理与观测成型
上面的时间线展示了一个非常清晰的演变:从 reasoning pattern 到 runtime stack,再到 protocol + governance。 也就是说,未来竞争的护城河将越来越多地来自 运行时稳定性、评测体系、连接器生态、安全治理与跨代理互操作,而不仅是基础模型的单点能力。 citeturn19search0turn19search2turn19search3turn5search0turn29view0turn4search8turn4search18turn5search3turn36view0turn37view1turn26search2turn6search4turn3search10turn31view0turn13search2turn39view0turn37view2turn39view1turn32view0turn33view0
建议的优先研究/工程任务 可以分成两个层面:
-
未来 12 个月优先做的工程任务:
先做 planner/doer 分离;把工具、状态、轨迹、审批做成一等对象;给每个高风险动作绑定 tool guardrail 和人工审批;在容器或受限环境里执行代码/浏览器任务;建立“黄金轨迹集 + 在线回放 + 红队集 + 成本/延迟监控”的评测闭环。这样做直接对应了 Anthropic 的可组合模式、OpenAI 的 tracing/guardrails、Google 的 trajectory evaluation、AWS 的 trace/guardrails,以及 AgentDojo 暴露出的主要失败面。 citeturn29view0turn31view1turn31view2turn32view2turn33view1turn36view0 -
未来 1–3 年优先做的研究任务:
重点攻克开放网页/GUI 的稳健性、记忆质量度量、agent-specific RL、自动验证器的泛化、MCP/A2A 生态的安全模型,以及“工具空间干扰”这类多工具系统特有问题。现实依据是:Online-Mind2Web 已显示评测 realism 会重写我们对进展的判断;OSWorld 把 GUI 难题公开化;Magentic-One 团队已把 tool-space interference 作为新问题提出。 citeturn26search2turn4search18turn38view0 -
未来 3–5 年最关键的系统方向:
形成跨代理身份、授权、审计、结算与责任链模型;把 memory poisoning、跨代理 delegation、长期自治与高风险能力门控整合到统一治理框架中;在高价值领域让“自动验证器 + 人类复核 + 合规策略”成为标准三件套。MCP 与 A2A 已经提供了早期协议雏形,但真正缺少的是面向企业与关键基础设施的“可信代理互联网”治理层。 citeturn37view1turn37view2turn35view0turn35view1turn35view2
推荐阅读清单:
- Anthropic《Building effective agents》:最实用的生产模式总结。 citeturn29view0
- Huang 等《Understanding the planning of LLM agents》:规划维度综述。 citeturn18search1
- Li《A Review of Prominent Paradigms for LLM-Based Agents》:工具、规划、反馈三大范式综述。 citeturn18search2
- WebArena、VisualWebArena、OSWorld:网页与 GUI 代理评测三件套。 citeturn4search8turn24search3turn4search18
- τ-bench、BFCL、AgentDojo:工具调用与安全鲁棒性评测。 citeturn5search3turn6search4turn36view0
- Online-Mind2Web:理解“真实世界评测会如何推翻想象中的进步”。 citeturn26search2
- Magentic-One:多代理通用系统的代表工作。 citeturn38view0
- AlphaEvolve:Agent 与自动验证器结合后在算法/科学优化上的范式样例。 citeturn39view0
开放问题与局限。 本报告尽量以一手资料为主,但 2026 年商业系统的很多核心细节仍只在产品文档和工程博客中部分披露,公开可复现实验通常落后于产品更新;同时,在线 benchmark 与 leaderboard 变化很快,本文更强调机制与趋势,而不是追逐某一周的瞬时榜单名次。就当前证据看,最稳妥的结论仍然是:Agent 的真正前沿不是“更像人”,而是“更像一个可治理、可测试、可恢复的复杂软件系统”。 citeturn24search4turn26search2turn29view0turn31view1turn35view0
