DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
目录
目录
  1. 首页/
  2. 博客列表/
  3. 博客详情

2026年5月份最新AI Agent系统设计与技术进展研究报告

2026/05/18 17:18:49
36 阅读
AIAgentReports

假设与范围。 本报告按用户要求以中文撰写,时间范围优先覆盖 2024–2026,并纳入若干对当前路线仍具决定性影响的 2023 奠基工作;不假设预算、组织规模或行业约束。报告优先采用近两年论文、顶会/期刊页面、arXiv 摘要页,以及 OpenAI、Anthropic、Google、AWS、Microsoft、Salesforce、NIST、OWASP 等一手文档。

  • 核心判断一:当前最有效的 Agent 不是“万能单体”,而是“可组合、可观测、可约束”的系统。 Anthropic 在 2024 年的工程总结明确区分了 workflow 与 agent,并强调多数成功落地并不依赖复杂框架,而是依赖简单的组合模式;OpenAI、Google、AWS、Anthropic 的 2025–2026 平台也都把状态、工具、会话、追踪、审批与沙箱做成一等公民。 citeturn29view0turn31view3turn31view0turn32view0turn33view0turn39view1

  • 核心判断二:从研究到工程,主旋律是“规划器 + 执行器 + 记忆/检索 + 工具 + 评测闭环”。 OpenAI 公开建议将 o-series 推理模型作为“planner”、低延迟 GPT 模型作为“doer”;Anthropic把增强型 LLM 视为以检索、工具、记忆为增广的基本构件;AWS、Google 也都在产品结构中显式暴露动作组、知识库、会话、记忆库与执行环境。 citeturn30view0turn29view0turn33view0turn32view0turn39view1

  • 核心判断三:评测正在从“看最终答案”转向“看整条轨迹”。 WebArena、VisualWebArena、OSWorld、GAIA、SWE-bench Verified、τ-bench、BFCL、AgentDojo、Online-Mind2Web 等基准,分别把网页、GUI、通用助理、代码修复、函数调用、prompt injection 安全与在线真实网站评测纳入统一视野;Google Vertex AI 已把最终回复评测与轨迹评测分开建模。 citeturn4search8turn24search3turn4search18turn5search0turn4search11turn5search3turn6search4turn36view0turn26search2turn32view2

  • 核心判断四:现实环境中的 Agent 仍远未“接近人类稳健性”。 GAIA 论文中,人类平均正确率为 92%,而当时带插件的 GPT-4 仅 15%;VisualWebArena 报告中最佳 VLM agent 仅 16.4%,人类约 88.7%;Online-Mind2Web 2025 进一步指出,在更接近真实用户的在线网页任务上,现有前沿 agent 多数只能完成约 30%,并显示既有基准可能高估了进展。 citeturn5search0turn24search3turn26search10turn26search2

  • 核心判断五:但在“可验证、可约束、反馈可获得”的领域,Agent 已开始产生真实价值。 典型领域包括软件工程、客服、法律与科学/基础设施优化:OpenAI Codex 在云端隔离容器中执行编码任务;Intercom 报告客服场景的 AI resolution rates 可达 90%;Thomson Reuters 宣布下一代 CoCounsel Legal 基于 Anthropic Claude Agent SDK 重构;Google DeepMind 的 AlphaEvolve 已部署到数据中心调度与 TPU 设计流程,且在 Google 数据中心平均回收约 0.7% 的算力资源。 citeturn13search2turn14search0turn14search1turn39view0

  • 核心判断六:未来两到五年,竞争焦点将从“谁回答得更好”转向“谁更能在真实系统里安全地行动”。 这要求协议层互操作(MCP、A2A)、运行时隔离、记忆治理、工具权限最小化、轨迹级评测、prompt injection 防御与组织级风险治理一起推进,而不是只靠更大的基座模型。 citeturn37view1turn37view2turn39view1turn34view0turn36view0turn35view0turn35view1turn35view2

总体上,Agent 正在从“提示工程的延伸”变成“一个新的应用系统栈”:上层是任务、角色与人机协作,中层是规划/检索/工具/记忆/安全模块,下层是运行时、会话、容器、日志、评测与治理。这个系统栈的成熟速度,正在快于“完全自治通用代理”的能力成熟速度。 citeturn29view0turn31view3turn32view0turn33view0turn39view1turn26search1turn26search7

定义与分类

一个对当下实践更有操作性的定义是:AI Agent 是一个以目标为中心、在闭环中接收观察、选择动作、调用工具、维护状态,并在多步过程中适应新信息的系统。 Anthropic 将其与“workflow”明确区分:前者由模型动态决定过程与工具使用,后者则由预定义代码路径编排;OpenAI 则把 agent 描述为会“规划、调用工具、跨专长协作并保留足够状态以完成多步工作”的应用;AWS 则把 agent 的运行分为预处理、编排、知识库查询/动作执行与后处理等阶段。 citeturn29view0turn31view3turn33view0

从研究综述看,当前 Agent 分类最有用的不是单一标签,而是按 五个维度 切分:自治程度、环境模态、动作空间、记忆机制、组织方式。关于规划维度的综述已把 LLM-agent 规划能力分为任务分解、计划选择、外部模块、反思与记忆;关于多代理维度的综述则把环境、角色、通信与能力增长机制作为核心观察轴。 citeturn18search1turn18search0turn18search2

分类维度主要类型典型含义实践启示主要依据
自治程度工作流型、半自治、全自治从固定编排到模型主导决策闭环大多数企业先从 workflow 起步,再把自治只开放给高价值节点citeturn29view0turn31view3
环境模态文本/API、网页、GUI/OS、代码仓库、物理/机器人决定观察与动作接口GUI/网页最接近真实办公自动化,也是最脆弱的场景citeturn4search8turn4search18turn13search2turn25search13
动作空间函数调用、OpenAPI/API、浏览器动作、终端命令、文件编辑、跨代理委派动作空间越强,副作用越大需要审批、沙箱、权限最小化与可追踪执行citeturn31view0turn33view0turn39view1turn37view2
记忆机制短期上下文、RAG/语义记忆、情景记忆、技能库决定长期任务的一致性与复用记忆不只是“存历史”,还包括压缩、反思与检索策略citeturn37view0turn33view2turn32view0
组织方式单代理、planner-executor、orchestrator-worker、多代理团队决定模块边界与协调成本越复杂越需要强观测、明角色、低职责重叠citeturn29view0turn38view0turn38view1turn32view0

值得强调的是,“Agent”与“Agentic AI”并不等价。就现在的一线产品与系统来说,真正大规模落地的多是“agentic systems”——也就是把 LLM、检索、规则、工具、容器、审计、审批和评测组合起来的系统,而不是一个可以在任何环境中完全自主运转的“通用代理”。这也是为什么 2025–2026 的平台文档普遍更强调 runtime、session、trace、guardrail、sandbox,而不是只强调模型本身。 citeturn29view0turn31view3turn31view1turn33view1turn39view1

架构模式与核心组件

当前最主流的架构范式可以概括成三层:任务分解与策略层、能力执行层、运行与治理层。上层决定“做什么”和“先后顺序”,中层决定“调用哪个工具/检索什么/如何执行”,下层保证“状态可恢复、动作可审计、风险可拦截”。Anthropic 的工程文章把这类模式梳理为 prompt chaining、routing、parallelization、orchestrator-workers、evaluator-optimizer;OpenAI 则公开建议把复杂任务交给推理模型规划,把执行性交给更快更便宜的 GPT 模型;Magentic-One、Bedrock multi-agent collaboration、本质上都是这种思想的不同实现。 citeturn29view0turn30view0turn38view0turn38view1

flowchart LR
    U[用户目标] --> A{任务是否可预定义}
    A -- 是 --> W[Workflow\nPrompt chaining / Routing / Parallelization]
    A -- 否 --> P[Planner / Orchestrator]
    P --> R[Retriever / Memory]
    P --> T[Tool Router]
    T --> E[Executor\nAPI / Browser / Shell / Code]
    E --> O[Observation]
    O --> P
    P --> J[Judge / Guardrail / Human Review]
    J -->|继续| P
    J -->|终止/审批| F[Final Output]

上图所示的“planner–tool–observation–judge”闭环,几乎已经成为新一代 Agent SDK 与托管平台的公共形态:OpenAI Agents SDK 将 tools、handoffs、guardrails、state 和 tracing 作为核心抽象;AWS Bedrock Agents 把预处理、编排、观察、知识库/动作组与 trace 暴露为标准流程;Claude Managed Agents 甚至把 Agent / Environment / Session / Events 四个概念直接产品化。 citeturn31view3turn31view2turn33view0turn33view1turn39view1

架构模式结构特征优点代价/风险适用场景主要依据
单体循环单一模型在循环中同时规划、工具选择、执行与反思简洁、开发快、原型效率高难调试、难控成本、职责混杂小型工具代理、低风险内部任务citeturn19search0turn1search0turn29view0
模块化单代理planner、retriever、tool router、judge 分离,但仍由单个“主代理”统筹可替换、可观测、易插安全层编排复杂度上升企业知识助手、文档代理、客服citeturn29view0turn30view0turn32view0turn33view0
planner–executor强推理模型负责计划,轻量模型/工具负责执行兼顾准确率与延迟/成本计划-执行接口设计难多步业务流程、复杂检索、审单citeturn30view0turn29view0
orchestrator–worker顶层代理动态拆解任务并委派子代理适合未知子任务、天然可扩展协调成本高,角色重叠会降质编码、研究、跨源搜索citeturn29view0turn38view0turn38view1
层级多代理supervisor + collaborator/team hierarchy易映射组织分工,适合企业流程权限与责任边界更难治理金融、按职能分工的企业自动化citeturn38view1turn37view2
评估器–优化器生成器与评审器形成改进回路质量稳定、利于高价值输出成本和时延更高长文写作、代码修复、法律草拟citeturn29view0turn1search1turn1search2

核心组件方面,今天的 Agent 系统实际上是“多模块协同而非单模型独裁”。 尤其在生产系统里,LLM 只是策略与语言接口层,并不是全部能力来源。

组件当前最佳实践最新趋势主要依据
LLM 基座使用推理模型做规划、使用低延迟模型做执行;对不同节点异构配模planner/doer 分工正在从经验做法变成产品文档显式建议citeturn30view0turn38view2
微调与后训练用 SFT/偏好优化/RFT 做工具格式、风格、策略约束;再叠加环境级训练单轮对齐仍重要,但不足以替代长程环境训练citeturn30view0turn6search1turn3search13turn3search10
RAG 与 grounding知识库、语义检索、引用回传、工具确认真实世界状态grounding 正从“检索文本”扩展到“检索状态 + 检索动作上下文”citeturn29view0turn33view0turn32view2
工具/API 层函数调用、OpenAPI、动作组、MCP server、浏览器/终端/文件工具MCP 与 A2A 正把工具互联与代理互联拆成两个协议层citeturn31view0turn33view0turn37view1turn37view2turn37view3
动作空间文本到 API,进一步扩展到 browser、shell、filesystem、computer use真正有副作用的动作越来越多,需要审批与沙箱citeturn31view0turn39view1turn13search2
observation handling将工具结果、网页状态、执行日志、文件变更回灌给规划层观察处理正在成为决定稳定性的关键瓶颈citeturn33view0turn37view0turn38view2
state / memory store会话历史、文件系统、会话存储、语义记忆、情景记忆记忆从“chat history”升级为“可抽取、可反思、可检索”的经验库citeturn39view1turn33view2turn32view0
安全模块输入/输出/工具 guardrail、HITL、权限控制、过滤器、容器隔离安全层正在内生到平台,而非事后外挂citeturn31view2turn34view0turn33view3turn38view2

最值得关注的新工程理念是 context engineering。Anthropic 2025 年把它定义为对有限上下文窗口进行持续策展与循环精炼的“艺术与科学”,强调长程 agent 不是简单地“把更多 token 塞进去”,而是要不断决定 什么该保留、压缩、遗忘、重取和外化为工具/记忆。这也是为什么会话、压缩、prompt caching、memory bank、episodic memory 这些机制在 2025–2026 全部上升为显式架构对象。 citeturn37view0turn39view1turn32view0turn33view2

算法进展

从算法演进看,Agent 研究的主线并不是单一“更强推理”,而是三条线并进:推理外显化与搜索、反馈与自我修正、环境交互式学习。其中最重要的变化是:研究社区正逐步从“单次回答质量”转向“闭环策略质量”,从而把 planning、tool use、reflection、memory 与 RL 连接成一条连续谱系。 citeturn18search1turn18search2turn24search4

方法族代表工作主要贡献对 Agent 的现实意义主要局限主要依据
Chain-of-ThoughtCoT Prompting (2022)用中间推理步骤提升复杂推理奠定“显式中间状态”思想;但在新推理模型上,显式 CoT 提示不再总是最优容易冗长、泄露无关思路citeturn19search0turn30view0
Reason+Act 耦合ReAct (2023)把 reasoning 与 acting 统一到单个交替轨迹中仍是工具代理最基础的 loop 原型易陷入局部决策与错误累积citeturn1search0
工具学习 / imitation-style bootstrappingToolformer、ToolLLM/ToolBench、StableToolBench学会何时调用工具、如何传参,并用大规模 API 数据进行指令调优是函数调用、API 代理和工具使用模型的主要起点训练分布和真实工具分布偏移很大citeturn19search2turn6search1turn6search5
反思与自我修订Self-Refine、Reflexion用自反馈/语言反馈迭代改进答案或策略对代码修复、长文生成、失败恢复非常有效循环过长会放大成本与偏差citeturn1search1turn1search2
搜索与规划Tree of Thoughts、LATS从线性 CoT 升级为分支搜索、评估与回溯适用于需要 lookahead 的任务,如规划、复杂推断、网页多步决策搜索宽度增加会迅速抬高推理成本citeturn19search1turn1search3
辩论 / 投票式多样化推理并行化 + voting、多代理讨论让多个候选解相互校验,提高鲁棒性在高风险任务上常作为 judge/verification 层协调本身也可能引入噪声citeturn29view0turn18search0turn18search13
环境级强化学习WebRL、Offline RL for multi-step reasoning不再只优化单轮偏好,而是利用轨迹和结果信号优化策略对网页、多步推理、GUI 代理尤其关键奖励设计、离线数据质量与探索稳定性仍难citeturn3search10turn3search13
层次化强化学习STEP-HRL (2026)用 step-level HRL 降低长历史依赖,提高可扩展性对长程、记忆负担重的 agent 非常契合仍属于前沿研究,工程化经验有限citeturn3search11

需要特别指出两点。

第一,显式 CoT 的地位正在变化。它仍是 Agent 推理链条的历史基础,但 OpenAI 2026 的官方建议已明确指出:对于其 reasoning models,直接要求“step by step”并不一定提升效果,原因在于模型内部已做了相当部分的隐式推理。于是,今天更有价值的做法是:把系统级的中间状态保留为可检查的规划、工具调用、观察与评审轨迹,而不是盲目要求模型吐出冗长思维。 citeturn19search0turn30view0turn29view0

第二,强化学习的焦点正在从“偏好对齐”转向“环境适应”。SFT、DPO、RFT/RLHF 仍然重要,尤其适合把基础模型校准到函数调用格式、数据结构与策略边界;但网页、GUI、代码仓库和长时任务的“真能力”越来越依赖环境反馈、工具执行结果、自动验证器与分层控制。WebRL、Offline RL、STEP-HRL 代表的正是这条路线。AlphaEvolve 在算法发现问题上成功的原因也相似:它把 LLM 创造性与自动评估器结合,使学习信号客观而密集。 citeturn30view0turn3search10turn3search13turn3search11turn39view0

因此,未来 Agent 算法最重要的方向不是再发明一个新的 prompt 模板,而是把“搜索、反思、验证、奖励、记忆压缩”统一进可训练的闭环策略。 这也会直接影响系统设计:越来越多的运行时会把 evaluator、judge、sandbox、trajectory store 当成学习基础设施,而不只是调试工具。 citeturn29view0turn24search1turn32view2turn31view1

系统工程与评测

在工程层面,Agent 系统已经形成一套几乎独立于基础模型的 “新后端学”:可恢复执行、异步长任务、状态化会话、容器/文件系统、追踪、评测、人工审批、权限收缩。LangGraph 把 durable execution、streaming 与 human-in-the-loop 作为底层能力;OpenAI 提供 Responses API 的 stateful context、agentic loop、内置工具与 background mode,以及默认开启的 tracing;Google ADK 把 logging/metrics/traces、会话、Memory Bank、Agent Runtime 与 trajectory evaluation 纳入平台;AWS 则把 trace、sessions store、multi-agent collaboration 与 Guardrails 集成进 Bedrock/AgentCore。 citeturn7search0turn8search8turn31view0turn31view1turn10search0turn32view0turn32view1turn33view0turn33view1

延迟与可扩展性 的最有效策略,并不是简单堆更快的模型,而是:
一是 planner/doer 分离,把高智力节点集中到少数决策拐点;
二是 parallelization,让互相独立的子任务并行;
三是 状态压缩与缓存,尤其面向长时任务时的 prompt caching、compact context 与持久会话;
四是 异步执行,把长任务放到 background run 或 managed session 中。Anthropic、OpenAI、Google、AWS 的官方文档都已把这些能力显式化,这说明它们不再是“高级技巧”,而是生产 Agent 的标准配置。 citeturn29view0turn39view1turn31view0turn10search0turn32view0

测试与可复现性 则是另一个正在快速成熟的层面。OpenAI 的 agent evals 明确要求使用 traces、graders、datasets 和 eval runs;Google Vertex AI 则区分 final response evaluation 与 trajectory evaluation,并提供 exact match / in-order match / any-order match 等轨迹指标;AWS trace 直接暴露 agent sequence 的 rationale、actions、queries 与 observations。换句话说,“测试答案”已经不够,必须测试轨迹、工具参数、边界条件和副作用。 citeturn24search1turn24search17turn32view2turn33view1

基准/框架任务环境主要指标它真正测什么重要结论主要依据
GAIA通用助理、需推理/多模态/网页/工具准确率通用多步助理能力人类 92%,早期 GPT-4+plugins 15%,表明“会做题”不等于“会做助理”citeturn5search0
AgentBench8 类交互环境多环境得分作为 agent 的推理与决策早期建立了“LLM as agent”评估框架citeturn5search1
WebArena自托管网页环境任务成功率文本网页代理的端到端导航/操作是网页代理研究的主流离线环境之一citeturn4search8turn27search18
VisualWebArena视觉网页环境成功率、人工轨迹对比视觉 grounding + 网页操作论文报告最佳 VLM agent 16.4%,人类约 88.7%citeturn24search3turn24search11
OSWorld真实 OS / GUI / 桌面软件execution-based successGUI/computer-use 能力把 agent 从浏览器推进到真实电脑环境citeturn4search18turn27search0
SWE-bench Verified真实 GitHub issue通过验证的修复率代码代理的真实软件工程能力500 个经人工确认可解的问题,更适合衡量 agent 而非纯代码模型citeturn4search11turn4search3
τ-bench工具-代理-用户对话pass^k、终态一致性多轮对话中按规则使用工具SOTA function-calling agents 在原始论文中仍低于 50%,稳定性更差citeturn5search3turn5search19
BFCL函数调用AST-based accuracy 等单/串行/并行函数调用正确性函数调用正在成为独立评测赛道citeturn6search4turn6search8
AgentDojo含攻击与防御的工具代理环境任务完成 + 安全属性间接 prompt injection 鲁棒性含 97 个现实任务、629 个安全测试案例citeturn36view0
Online-Mind2Web真实在线网站成功率、LLM-as-judge 与人工一致率真实开放网页环境鲁棒性2025 论文认为旧基准可能高估能力;多数前沿 agent 仅约 30%,自动评委与人工约 85% 一致citeturn26search2turn26search10turn26search6

对“人评协议”的理解也需要升级。当前主流有三种:静态人工金标、人工轨迹、在线 pairwise 偏好。VisualWebArena 采集了人类轨迹;BrowserArena 则把真实用户提交任务与 head-to-head 比较结合起来;Online-Mind2Web 提供了更强现实性的在线评测,并尝试用 LLM-as-a-judge 缓解人工成本。未来最可靠的评测协议,很可能是 自动执行 + 轨迹金标 + 人工抽样复核 + 安全红队 的组合。 citeturn24search11turn5search18turn26search2turn36view0

开源与商业系统对比

从生态格局看,2025–2026 已经出现明显分层:开源侧 更像“编排/运行时/实验框架”竞争,商业侧 更像“托管基础设施 + 企业连接器 + 安全治理 + 观测与运维”竞争。两侧正在通过 MCP、A2A 以及各自的 tracing/evals 接口逐步对齐。 citeturn37view1turn37view2turn31view1turn32view1turn33view1

开源项目主要定位关键特征许可证成熟度判断主要依据
LangGraph低层状态化编排框架durable execution、streaming、HITL、状态图式编排MIT生产导向:底层能力完整,适合长任务与可恢复工作流citeturn8search8turn7search0turn8search0
Google ADK开源 agent 开发框架多语言、multi-agent、评测、Runtime、Memory Bank、observabilityApache-2.0快速成熟:文档、运行时与治理链条完整citeturn32view0turn32view1turn22search0
AutoGen多代理研究/开发框架event-driven、多代理协作、Teams、Magentic-One 集成MIT(代码)过渡期:经典项目仍重要,但原仓库已 maintenance mode,概念正迁移到 Microsoft Agent Frameworkciteturn7search1turn7search7turn9search6turn7search10
CrewAI多代理与流程编排Crews + Flows、event-driven state、built-in tracing/observabilityMIT产品化明显:同时有开源框架与商业控制平面citeturn7search5turn7search2turn7search8turn9search4
LlamaIndex Workflows文档/RAG/agent 工作流event-driven、async-first、多步骤 agent 工作流MIT应用导向:对知识工作流友好citeturn7search6turn7search20turn9search1turn9search5
Haystack透明编排与生产级 RAG/Agentloop-based Agent、schema state、ToolInvoker、HITLApache-2.0生产导向:强调透明架构与可组合流水线citeturn23search11turn23search3turn9search3turn9search7
smolagents轻量级 agent 库CodeAgent、ToolCallingAgent、多步思考与代码执行Apache-2.0高易用性:轻巧、适合原型与研究citeturn23search6turn23search18turn23search22turn8search5
OpenHands开源软件工程代理Agent SDK、ephemeral workspaces、GitHub issue resolverMIT(核心)垂直成熟:编码场景能力强,尤其适合软件代理citeturn23search4turn23search8turn23search17turn8search6
商业系统主要定位关键特征文档信号综合判断主要依据
OpenAI Responses API + Agents SDK代码优先 agent 平台hosted tools、state、MCP、tracing、guardrails、sandbox、background推荐新项目使用;支持多工具单请求 agentic loop通用型平台底座,适合 API-first 团队citeturn31view0turn31view1turn31view2turn31view3turn10search0
Claude Managed Agents托管 autonomous harnessagent/environment/session/events、prompt caching、compaction、secure container、web/shell/files当前为 beta;支持长运行与异步工作长任务/容器化突出,但仍处 betaciteturn39view1turn20search4
Gemini Enterprise Agent Platform企业级托管平台ADK、Agent Runtime、Memory Bank、sessions、policy、tracing、monitoringbuild/debug/deploy/scale/govern 一体化平台化最完整之一,偏云原生企业citeturn32view0turn32view2turn34view1
Amazon Bedrock Agents / AgentCore托管 agent 与企业治理action groups、knowledge bases、trace、Guardrails、multi-agent、memory“securely at scale”、trace 与 guardrail 深度整合云内集成强,适合 AWS 体系citeturn33view0turn33view1turn33view3turn38view1
Microsoft Copilot Studio / Agent Framework企业工作流与低代码 agent组织内 agents/workflows、agent node、企业模型与治理文档持续更新,Agent Framework 为 AutoGen+Semantic Kernel 继任者企业协同与低代码强citeturn12search0turn12search3turn7search10
Salesforce Agentforce企业数据与流程中的 agent 平台actions、subagents、hybrid reasoning、workflow/data grounding官方强调“complete, extensible, open platform”CRM/企业流程场景强势citeturn13search0turn13search1turn13search8

从系统形态上看,开源与商业并不是“二选一”。更现实的组合方式是:用开源框架掌握编排与可移植性,用商业平台承接托管运行时、连接器、安全与审计。 这也是 MCP 与 A2A 之所以重要的原因:它们让“框架层”和“平台层”之间出现了真正可复用的接口标准。 citeturn37view1turn37view2turn37view3

领域案例系统/组织部署证据关键启示主要依据
软件工程OpenAI Codex在云端安全、隔离容器中运行,任务执行期间默认禁网,仅访问用户显式提供的仓库与依赖代码代理之所以最先落地,是因为可用测试/linters/PR review 做客观验证citeturn13search2
客服Intercom + Anthropic + AWS官方案例称客户 resolution rates 可达 90%当成功率可直接绑定业务 KPI 时,agent ROI 最清晰citeturn14search0
法律Thomson Reuters CoCounsel Legal + Anthropic官方称下一代 CoCounsel Legal 以 Claude Agent SDK 重构,能够规划、选工具、检索权威内容并给出带验证引用的产物高价值知识工作最需要 authoritative retrieval + citation + policy constraintsciteturn14search1
科学/基础设施AlphaEvolveGoogle 已将其发现的算法部署到数据中心调度、芯片设计和 AI 训练;数据中心平均回收 0.7% 全球算力凡是“可自动验证”的问题,都可能成为 agent 的突破口citeturn39view0
航天/机器人NASA JPL + Anthropic Claude2025 年 12 月完成首个由 AI 规划的火星漫游车行驶任务物理世界代理依赖强仿真、严格验证与高成本人类 oversightciteturn25search13turn25search0

安全治理与未来路线图

Agent 的风险已经明显超出传统聊天模型。OWASP 的 LLM Top 10 中,Prompt Injection、Insecure Output Handling、Sensitive Information Disclosure、Insecure Plugin Design、Excessive Agency 对 Agent 尤为关键;AgentDojo 则进一步证明,一旦代理要从不可信工具返回值中读取信息并继续行动,prompt injection 将从“内容安全问题”变成“控制流安全问题”。这也是 2025–2026 几乎所有主流平台都开始把 guardrails、HITL、沙箱、权限策略与运行时安全做成原生能力的根本原因。 citeturn36view1turn36view0turn31view2turn34view0turn33view3turn39view1

风险类别典型触发面推荐控制主要依据
间接 prompt injection / tool hijack网页、文档、邮件、检索结果、MCP 返回值输入/输出分层过滤、工具结果隔离、URL/文档扫描、审批高风险工具、红队测试citeturn36view0turn34view0turn34view1turn31view2
过度自治与不可预期副作用shell、浏览器、文件操作、业务 APIhuman-in-the-loop 审批、least privilege、容器隔离、只读默认、显式 allowlistciteturn31view2turn38view2turn39view1
敏感信息泄露RAG、日志、模型输出、记忆存储PII/secret 过滤、输出校验、数据分级、访问条件控制citeturn33view3turn34view0turn35view0
记忆污染与上下文退化长会话、错误反思、被污染的 episodic memorycontext engineering、压缩/遗忘策略、记忆 revision、来源标记citeturn37view0turn33view2turn32view0
评测盲区与虚假进步过于干净的离线基准、静态页面在线评测、轨迹金标、人工抽检、真实副作用隔离citeturn26search2turn26search6turn32view2
前沿双重用途风险生化、网络安全、自主复制/长期自治组织级 preparedness/RSP、能力阈值、部署前 safeguards、外部审查citeturn35view1turn35view2turn15search6

在治理框架上,NIST AI RMF 仍是企业与公共机构最稳健的参考底座,而 NIST 2024 生成式 AI Profile 已把 GenAI 的独特风险显式纳入;OpenAI 的 2025 Preparedness Framework 则把 Biological/Chemical、Cybersecurity、AI Self-improvement 等类别纳入跟踪,并新增 Long-range Autonomy 等研究类别;Anthropic 的 Responsible Scaling Policy 则采用分层防御、访问控制、实时与异步监测等路线。三者共同表明:Agent 治理将越来越像“系统安全工程”,而不是产品文案层面的“安全承诺”。 citeturn35view0turn35view1turn35view2

下面给出一个面向未来两到五年的精简路线图。

timeline
    title AI Agent 技术与系统路线图
    2023 : ReAct / Toolformer / Voyager / GAIA
    2024 : Anthropic workflow taxonomy / WebArena / VisualWebArena / OSWorld / τ-bench / AgentDojo / MCP
    2025 : Online-Mind2Web / BFCL / WebRL / Responses API / Codex / AlphaEvolve / A2A
    2026 : Managed Agents / Agent Runtime + Memory Bank / AgentCore / 企业级治理与观测成型

上面的时间线展示了一个非常清晰的演变:从 reasoning pattern 到 runtime stack,再到 protocol + governance。 也就是说,未来竞争的护城河将越来越多地来自 运行时稳定性、评测体系、连接器生态、安全治理与跨代理互操作,而不仅是基础模型的单点能力。 citeturn19search0turn19search2turn19search3turn5search0turn29view0turn4search8turn4search18turn5search3turn36view0turn37view1turn26search2turn6search4turn3search10turn31view0turn13search2turn39view0turn37view2turn39view1turn32view0turn33view0

建议的优先研究/工程任务 可以分成两个层面:

  • 未来 12 个月优先做的工程任务:
    先做 planner/doer 分离;把工具、状态、轨迹、审批做成一等对象;给每个高风险动作绑定 tool guardrail 和人工审批;在容器或受限环境里执行代码/浏览器任务;建立“黄金轨迹集 + 在线回放 + 红队集 + 成本/延迟监控”的评测闭环。这样做直接对应了 Anthropic 的可组合模式、OpenAI 的 tracing/guardrails、Google 的 trajectory evaluation、AWS 的 trace/guardrails,以及 AgentDojo 暴露出的主要失败面。 citeturn29view0turn31view1turn31view2turn32view2turn33view1turn36view0

  • 未来 1–3 年优先做的研究任务:
    重点攻克开放网页/GUI 的稳健性、记忆质量度量、agent-specific RL、自动验证器的泛化、MCP/A2A 生态的安全模型,以及“工具空间干扰”这类多工具系统特有问题。现实依据是:Online-Mind2Web 已显示评测 realism 会重写我们对进展的判断;OSWorld 把 GUI 难题公开化;Magentic-One 团队已把 tool-space interference 作为新问题提出。 citeturn26search2turn4search18turn38view0

  • 未来 3–5 年最关键的系统方向:
    形成跨代理身份、授权、审计、结算与责任链模型;把 memory poisoning、跨代理 delegation、长期自治与高风险能力门控整合到统一治理框架中;在高价值领域让“自动验证器 + 人类复核 + 合规策略”成为标准三件套。MCP 与 A2A 已经提供了早期协议雏形,但真正缺少的是面向企业与关键基础设施的“可信代理互联网”治理层。 citeturn37view1turn37view2turn35view0turn35view1turn35view2

推荐阅读清单:

  • Anthropic《Building effective agents》:最实用的生产模式总结。 citeturn29view0
  • Huang 等《Understanding the planning of LLM agents》:规划维度综述。 citeturn18search1
  • Li《A Review of Prominent Paradigms for LLM-Based Agents》:工具、规划、反馈三大范式综述。 citeturn18search2
  • WebArena、VisualWebArena、OSWorld:网页与 GUI 代理评测三件套。 citeturn4search8turn24search3turn4search18
  • τ-bench、BFCL、AgentDojo:工具调用与安全鲁棒性评测。 citeturn5search3turn6search4turn36view0
  • Online-Mind2Web:理解“真实世界评测会如何推翻想象中的进步”。 citeturn26search2
  • Magentic-One:多代理通用系统的代表工作。 citeturn38view0
  • AlphaEvolve:Agent 与自动验证器结合后在算法/科学优化上的范式样例。 citeturn39view0

开放问题与局限。 本报告尽量以一手资料为主,但 2026 年商业系统的很多核心细节仍只在产品文档和工程博客中部分披露,公开可复现实验通常落后于产品更新;同时,在线 benchmark 与 leaderboard 变化很快,本文更强调机制与趋势,而不是追逐某一周的瞬时榜单名次。就当前证据看,最稳妥的结论仍然是:Agent 的真正前沿不是“更像人”,而是“更像一个可治理、可测试、可恢复的复杂软件系统”。 citeturn24search4turn26search2turn29view0turn31view1turn35view0

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

相关博客

  • HTML是AI输出的新标准吗?一个来自Anthropic工程师的挑衅性论断
  • Moltbook 是什么?一个专为 AI Agent 或者说是 OpenClaw(前身为 Clawdbot 或 Moltbot)设计的社交网络,以及最有趣的讨论案例收集
  • AI编码领域的转变:Karpathy的2026年反思与Boris Cherny的Claude Code团队回应
  • 看特斯拉前AI总监、OpenAI前知名研究员Andrej Karpathy如何看AI大模型编程(Claude Code这样的工具):AI Agent正在重塑编码工作流,2026年的软件工程大变革
  • 大模型工具使用的三次进化:从 Function Calling 到程序化编排
  • 为什么大模型企业都在强调可以连续工作XX小时的Agent和模型?长时运行Agent解析(Long-Running Agents)
  • Anthropic 最新 Agent 工程方案:使用双 Agent 架构让 AI 实现真正的长时自主工作
  • 如何让你的Agent更快,支持更多上下文?Anthropic发布Skills:专为AI Agent系统打造的专业领域工具规范,MCP强大的补充,更低的门槛和资源消耗

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署