DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
工具
语言中文

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
  1. 首页/
  2. 博客列表/
  3. 博客详情

一文总结基于大语言模型的自动代理(AI Agent)现状:AI Agent统一框架,Agent能力获取策略、AI Agent种类和当前已有的AI Agent模型总结

2023/09/14 23:30:52
1,344 阅读
AIAgentAutoGPT综述

自主代理(Autonomous Agents)是指能够自主决策和执行任务的计算机程序或系统。这些代理具备一定程度的自主性,可以根据其内部的规则、算法、数据和感知环境中的信息来做出决策,而不必依赖外部人类指令。大语言模型强大的能力让大家看到基于LLM的AI Agent的潜力。OpenAI的Safety团队的负责人Lilian WengAI Agent也认为AI Agent是使LLM转为通用问题解决方案的途径之一(参考:https://www.datalearner.com/blog/1051689842100145 )。中国人民大学高瓴人工智能学院在2023年8月份曾经发表过一篇关于AI Agent的综述文章,2023年9月初,这篇综述有了新的更新。本文总结一下最新的AI Agent的综述内容。

  • AI Agent的统一框架
  • 一、配置模块
  • 二、记忆模块
  • 三、规划模块
  • 四、行动模块

AI Agent的统一框架

这篇综述首先为AI Agent设计了一个统一的框架,将当前大多数的AI Agent都纳入到这个框架下。

具体来说,AI Agent框架的整体结构如下图所示:

AI Agent由一个配置模块、一个记忆模块、一个规划模块和一个行动模块组成。配置模块的目的是确定代理的角色。记忆和规划模块将代理置于动态环境中,使其能够回顾过去的行为并规划未来的行动。行动模块负责将代理的决策转化为具体的输出。在这些模块中,配置模块影响记忆和规划模块,而这三个模块共同影响行动模块。接下来,我们详细介绍这些模块。

一、配置模块

配置模块的目标是定义代理的身份和个性。与普通语言模型不同,自主代理往往需要扮演某种特定角色才能完成任务。配置模块明确了代理所扮演角色的相关信息,以指导其行为方式。

研究中通常包含的配置信息有:基础信息(如年龄、性别等)、心理信息(如性格特点等)、社会信息(如与其他代理的关系等)。生成配置信息的方法主要有:手工配置法直接人工指定代理个性;语言模型生成法使用语言模型自动生成配置;数据对齐法从真实数据集中学习配置。

配置模块设计的重要性在于它影响了代理的记忆、规划和行动方式。合理的配置可以让代理产生更符合预期角色的行为。例如在多代理协作中,不同角色的配置会明确各自的分工,有利于任务协同;在社会演化模拟中,代理配置反映真实人群特征,可以得到更可信的模拟结果。

总之,配置模块奠定了代理行为的基础。手工配置可以灵活定义代理个性,语言模型生成可以大规模自动生成配置,数据对齐可以准确捕捉真实人群特征。各种方法可以相结合使用,为不同目的生成理想的代理配置。

二、记忆模块

记忆模块存储代理过去的经历,为未来行动提供参考。它模拟人类记忆,支持代理在动态环境中积累经验、发展自我。

从结构上看,一般分为统一记忆结构和混合记忆结构。前者只保留最近经历,后者额外包含长期记忆。从格式上看,记忆可用自然语言描述,也可以编码为向量、知识库等格式。记忆模块还定义了读写反思等操作接口。

记忆模块的设计对代理的持续学习和行为一致性至关重要。读取相关记忆可提高行动效率;存储重要经历可支持长期推理;反思可以归纳更抽象的见解。混合记忆结构融合短期和长期记忆的优势,编码记忆可提高检索效率。

总之,记忆模块赋予代理累积经验的能力。设计时应考虑记忆overfitting和hallucination问题,以保证 recall 的质量。同时定义合理的操作接口,支持代理流畅地读写和利用记忆。这有助于代理在复杂动态环境中更智能地感知、学习和规划。

三、规划模块

规划模块将复杂任务分解为多个简单步骤,类似人类的思考过程。这可以明确代理解决问题的逻辑,使其行为更合理可解释。

无反馈规划一次性生成完整方案;有反馈规划允许逐步优化方案。两者各有优势。无反馈规划简单直接,但更适合简单任务;有反馈规划可以处理更复杂的长时间规划,但需要定义反馈通道。

反馈可以来自环境、人类或模型。环境反馈评估行动影响;人类反馈指导代理符合期望;模型反馈预测潜在问题。合理使用各类反馈可以弥补语言模型自己的局限,产生更高质量的规划。

规划模块让代理获得解决复杂问题的能力。无反馈规划可快速生成初步方案;有反馈规划更适合动态调整。研究中也集成外部规划器获得先进的搜索算法。规划模块与记忆模块相互协同,使代理在连续任务中表现出更强的逻辑推理与长期思考能力。

四、行动模块

行动模块将代理的决策转化为具体输出,直接作用于环境。它由行动目标、行动生成和行动空间三部分组成。

目标包括完成任务、交流沟通等。生成方式包括依据记忆和遵循规划等。行动空间则包括利用外部工具(如API和模型)或语言模型自身知识。

行动影响包括改变环境、更新自身状态、触发新行动等。合理的行动目标和生成策略可以让代理主动积极;提供丰富的行动空间可以应对更多情况。

总之,行动模块赋予代理实际影响环境的能力。行动的目标明确方向,生成方式保证质量,空间范围决定适应性。与其他模块协同,行动模块使代理能够展现出目标导向的主动性,并基于积累

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

相关博客

  • Moltbook 是什么?一个专为 AI Agent 或者说是 OpenClaw(前身为 Clawdbot 或 Moltbot)设计的社交网络,以及最有趣的讨论案例收集
  • AI编码领域的转变:Karpathy的2026年反思与Boris Cherny的Claude Code团队回应
  • 看特斯拉前AI总监、OpenAI前知名研究员Andrej Karpathy如何看AI大模型编程(Claude Code这样的工具):AI Agent正在重塑编码工作流,2026年的软件工程大变革
  • 大模型工具使用的三次进化:从 Function Calling 到程序化编排
  • 为什么大模型企业都在强调可以连续工作XX小时的Agent和模型?长时运行Agent解析(Long-Running Agents)
  • Anthropic 最新 Agent 工程方案:使用双 Agent 架构让 AI 实现真正的长时自主工作
  • 如何让你的Agent更快,支持更多上下文?Anthropic发布Skills:专为AI Agent系统打造的专业领域工具规范,MCP强大的补充,更低的门槛和资源消耗
  • 直接使用大模型通过界面来操作电脑和浏览器:谷歌发布Gemini 2.5 Computer Use 模型,重塑 AI 与界面交互能力,实测优秀~

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署