DataLearner 标志DataLearnerAI
AI技术博客
大模型评测排行
大模型评测基准
AI大模型大全
AI资源仓库
AI工具导航

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
  1. 首页/
  2. 博客/
  3. 标签:AIAgent
标签

「AIAgent」相关文章

汇总「AIAgent」相关的原创 AI 技术文章与大模型实践笔记,持续更新。

标签:#AIAgent
Moltbook 是什么?一个专为 AI Agent 或者说是 OpenClaw(前身为 Clawdbot 或 Moltbot)设计的社交网络,以及最有趣的讨论案例收集

Moltbook 是什么?一个专为 AI Agent 或者说是 OpenClaw(前身为 Clawdbot 或 Moltbot)设计的社交网络,以及最有趣的讨论案例收集

Moltbook 是一个创新的社交网络平台,专为 AI Agent 设计,在这里它们可以分享内容、参与讨论,并进行投票和点赞活动。人类用户仅限于观察者角色,无法直接互动。这个平台类似于 Reddit 的结构,允许 AI Agent 创建子社区(称为 submolt)、发布帖子、评论,并通过 API 接口进行操作,而不是视觉图形界面。

2026/01/31 16:36:16209
#AIAgent#Clawdbot
AI编码领域的转变:Karpathy的2026年反思与Boris Cherny的Claude Code团队回应

AI编码领域的转变:Karpathy的2026年反思与Boris Cherny的Claude Code团队回应

Andrej Karpathy预测2026年AI将主导软件编码工作流,带来巨大效率提升,但可能引发低质代码泛滥(slopacolypse)。Anthropic的Boris Cherny以Claude Code团队实践回应,展示近100% AI生成代码、通用工程师招聘策略,以及通过模型迭代有效控制质量问题。

2026/01/29 08:47:1463
#AIAgent#AndrejKarpathy
看特斯拉前AI总监、OpenAI前知名研究员Andrej Karpathy如何看AI大模型编程(Claude Code这样的工具):AI Agent正在重塑编码工作流,2026年的软件工程大变革

看特斯拉前AI总监、OpenAI前知名研究员Andrej Karpathy如何看AI大模型编程(Claude Code这样的工具):AI Agent正在重塑编码工作流,2026年的软件工程大变革

本文整理了 Andrej Karpathy 在 2025 年底关于 AI Agent 编程的核心观点。基于其使用 Claude Code 等大模型的真实工程经验,Karpathy 认为软件工程正从“手动编码”转向“由 AI Agent 执行、人类定义目标与约束”的新范式。文章同时分析了 AI Agent 在效率提升之外带来的工程风险、技能退化与内容质量问题,并指出 2026 年将是行业系统性消化 AI Agent 能力的关键一年。

2026/01/27 08:49:43181
#AIAgent#AndrejKarpathy
大模型工具使用的三次进化:从 Function Calling 到程序化编排

大模型工具使用的三次进化:从 Function Calling 到程序化编排

本文系统梳理了大模型工具使用(Tool Use)的三个演进阶段:循环式工具选择(Function Calling)、计划驱动执行(Plan-then-Execute)和程序化工具编排(Programmatic Tool Calling)。从 OpenAI Function Calling 的单次调用模式,到支持并行调度的计划-执行范式,再到最新的代码驱动编排方式,工具使用正在从"逐步决策"走向"计划驱动、代码驱动"。

2026/01/08 22:08:57382
#AIAgent#FunctionCalling
为什么大模型企业都在强调可以连续工作XX小时的Agent和模型?长时运行Agent解析(Long-Running Agents)

为什么大模型企业都在强调可以连续工作XX小时的Agent和模型?长时运行Agent解析(Long-Running Agents)

AI Agent 的一个关键趋势正在浮现:从“快速回答问题”转向“长时间稳定执行复杂任务”。本文系统梳理了为什么 Anthropic、OpenAI 等企业开始强调“长时运行 Agent”,并解释其真实含义并非模型一直思考,而是通过作业化、异步执行、可恢复运行和动态上下文管理,实现跨会话完成复杂目标。文章深入对比了长时 Agent 与传统脚本化 LLM Loop 的本质差异,分析其在自治能力、上下文工程、耐久执行与治理上的核心价值,并总结构建长时运行 AI Agent 所需的关键技术等。

2026/01/04 23:01:19435
#AIAgent#Long-RunningAgents
在大模型时代,AI 产品为什么更难复用?AI Agent产品应该如何开发?来自 Manus 的3个工程实践经验

在大模型时代,AI 产品为什么更难复用?AI Agent产品应该如何开发?来自 Manus 的3个工程实践经验

本文基于 Manus 一线工程成员的真实实践,总结并分析了 大模型时代 AI 产品在工程与复用层面发生的关键变化。文章并不关注模型参数或算法细节,而是聚焦于真实生产环境中的工程问题:功能交付的责任边界如何变化、为何原型验证比完整规划更重要,以及在 Agent 系统中个人角色与系统边界如何被重新定义。这些经验揭示了一个趋势——在大模型具备“执行能力”之后,AI 产品的可用性越来越依赖工程体系本身,而非模型能力本身。本文适合关注 AI 工程实践、Agent 架构以及大模型落地问题的技术读者参考。

2025/12/28 20:44:13322
#AIAgent经验#AI产品
Anthropic 最新 Agent 工程方案:使用双 Agent 架构让 AI 实现真正的长时自主工作

Anthropic 最新 Agent 工程方案:使用双 Agent 架构让 AI 实现真正的长时自主工作

就在昨天,Anthropic 发布了一套非常重要的工程方案,专门针对这些挑战而设计:基于“Initializer Agent + Coding Agent”的双 Agent 架构。

2025/11/27 20:34:30891
#AIAgent#大模型应用
BrowseComp:OpenAI发布的AI Agent网页浏览能力评估基准

BrowseComp:OpenAI发布的AI Agent网页浏览能力评估基准

BrowseComp是一个用于评估AI代理网页浏览能力的基准测试。它包含1266个问题,这些问题要求代理在互联网上导航以查找难以发现的信息。该基准关注代理在处理多跳事实和纠缠信息时的持久性和创造性。OpenAI于2025年4月10日发布此基准,并将其开源在GitHub仓库中。

2025/11/07 10:52:40188
#AIAgent评测#大模型评测
如何让你的Agent更快,支持更多上下文?Anthropic发布Skills:专为AI Agent系统打造的专业领域工具规范,MCP强大的补充,更低的门槛和资源消耗

如何让你的Agent更快,支持更多上下文?Anthropic发布Skills:专为AI Agent系统打造的专业领域工具规范,MCP强大的补充,更低的门槛和资源消耗

Anthropic 正式推出全新功能 Claude Skills,旨在让通用 AI 代理(Agent)具备专业领域能力。该功能允许用户通过创建包含 SKILL.md 文件的技能文件夹,为 Claude 注入可执行脚本、模板与资源,实现 Excel 处理、PPT 生成等特定任务的自动化操作。与传统提示词不同,Skills 采用结构化加载与本地沙箱执行机制,兼顾安全性与效率。

2025/10/17 13:12:331,129
#AIAgent#Claude
直接使用大模型通过界面来操作电脑和浏览器:谷歌发布Gemini 2.5 Computer Use 模型,重塑 AI 与界面交互能力,实测优秀~

直接使用大模型通过界面来操作电脑和浏览器:谷歌发布Gemini 2.5 Computer Use 模型,重塑 AI 与界面交互能力,实测优秀~

就在昨天,2025年10月7日,Google DeepMind 正式发布其最新模型——Gemini 2.5 Computer Use。该模型基于 Gemini 2.5 Pro 的视觉理解与推理能力,新增了“界面交互(UI 控制)”能力,能够在浏览器或移动端界面上像人类那样点击、输入、滚动、选择控件等操作。

2025/10/08 22:15:37459
#AIAgent#Gemini2.5ComputerUse
如何快速五分钟就能了解GitHub中一个项目的代码架构和逻辑:智谱类DeepResearch的大模型产品Zread介绍,GitHub仓库解读神器

如何快速五分钟就能了解GitHub中一个项目的代码架构和逻辑:智谱类DeepResearch的大模型产品Zread介绍,GitHub仓库解读神器

智谱AI于2025年7月发布了Zread。这款产品能够利用其大模型能力,结合类似Deep Research的Agent技术,对GitHub项目进行深度解读和问答。其价值在于将强大的模型能力通过优秀的工程化设计,变成了一个真正“好用”的工具。它解决的正是那种“代码就在那里,但我就是看不懂”的尴尬,这种体验是单纯聊天机器人无法替代的。

2025/09/27 20:55:06318
#AIAgent#Zread
Moonshot AI发布Kimi K2-Instruct-0905:256K上下文长度加持,全面升级的开放式智能体模型

Moonshot AI发布Kimi K2-Instruct-0905:256K上下文长度加持,全面升级的开放式智能体模型

今日,Moonshot AI正式发布了最新旗舰模型 Kimi K2-Instruct-0905。这是一款基于混合专家架构(MoE)的前沿大语言模型,总参数规模达到 1万亿,激活参数为 320亿,不仅在编码智能上实现了断层式提升,更凭借 256K超长上下文 成为当前同类产品中的佼佼者。官方称其在公共基准和真实智能体任务上的表现均有显著突破,已对标并超越部分国际顶尖模型。

2025/09/06 04:23:04480
#AIAgent#K2
如何评价大模型和AI Agent在命令行环境中执行工具解决任务的能力?Terminal Bench评测简介

如何评价大模型和AI Agent在命令行环境中执行工具解决任务的能力?Terminal Bench评测简介

Terminal-Bench是一个新兴的开源基准测试,专为评估人工智能Agent(AI Agent)在命令行终端环境中的实际操作能力而设计。它通过一系列模拟真实世界场景的复杂任务,旨在客观、可量化地衡量AI Agent在执行代码编译、服务器管理和数据处理等任务时的熟练程度与自主性。

2025/07/23 16:56:16613
#AIAgent评测#TerminalBench
OpenAI发布ChatGPT Agent系统:一个新模型驱动的系统,可以写代码运行代码,使用浏览器订票,写PPT、做excel的全能Agent

OpenAI发布ChatGPT Agent系统:一个新模型驱动的系统,可以写代码运行代码,使用浏览器订票,写PPT、做excel的全能Agent

OpenAI刚刚发布了一个全新的AI Agent产品,称为ChatGPT Agent。这个全新的Agent系统可以控制我们的电脑,然后使用电脑上的浏览器、PPT、Excel等工具帮我们完成一些日常的工作,从头开始帮我们完成一些非常复杂的任务。根据OpenAI的描述,这个Agent系统的目标未来是一个通用的Agent,而这些能力未来将会随着这个产品不定期更新。

2025/07/19 09:03:39307
#AIAgent#AIAgent系统
Kimi K2为什么开源?基于Kimi团队成员内容解释Kimi K2模型背后的决策思路与技术细节:继承于DeepSeek V3架构,只为追求模型智能的上限

Kimi K2为什么开源?基于Kimi团队成员内容解释Kimi K2模型背后的决策思路与技术细节:继承于DeepSeek V3架构,只为追求模型智能的上限

上周,MoonshotAI 发布了 Kimi K2,并宣布 完全开源、允许商用。发布 24 小时内,社区即完成了 MLX 移植、4-bit 量化等后续工作。外网很多人评价说,Kimi K2是另一个DeepSeek R1时刻。本文尝试以第三方视角,把Kimi开发者公开的技术讨论、社区疑问与公开配置里的数字串成一条完整的技术决策链,解释Kimi K2背后的技术决策以及他们眼中大模型创业企业的方向。

2025/07/14 22:42:55640
#AIAgent#K2
Kimi开源K2大模型:全球首个开源可商用的1万亿参数规模大模型,MoE架构,评测结果与DeepSeekV3相当,但模型文件有1TB!

Kimi开源K2大模型:全球首个开源可商用的1万亿参数规模大模型,MoE架构,评测结果与DeepSeekV3相当,但模型文件有1TB!

Kimi K2是由Moonshot AI最新推出的旗舰级大模型,首次将开放Agentic Intelligence(自主代理智能)与强大工具调用能力有机整合。它不仅在知识推理、数学、代码等传统“非思维模型”任务上展现出全球领先的能力,还特别针对一系列实际Agentic(自动决策与操作型)任务进行了深度优化。在业内,这代表AI模型正从“只会答题”向“能自主完成复杂任务”转变。K2模型完全开源,可免费商用授权。

2025/07/12 09:36:27976
#AIAgent#K2
ManusAI产品介绍和特点总结,以及用户对该产品的评价总结,背后的开发团队介绍

ManusAI产品介绍和特点总结,以及用户对该产品的评价总结,背后的开发团队介绍

Manus AI 是一款尖端的人工智能代理程序,于 2025 年 3 月 6 日正式发布,旨在跨多个领域自主执行复杂任务,弥合人类意图与可操作结果之间的差距。它由 Butterfly Effect 开发,该公司在中国(北京和武汉)以及新加坡(BUTTERFLY EFFECT PTE. LTD.)设有运营机构。以下内容基于截至 2025 年 7 月 5 日的最新信息,涵盖其产品功能、关键技术特点及用户反馈。

2025/07/06 11:07:34228
#AIAgent#Manus
ManusAI技术解析:这真的是Sonnet 3.7+29个工具的简单AI Agent吗?

ManusAI技术解析:这真的是Sonnet 3.7+29个工具的简单AI Agent吗?

就在今天,X平台上的一位博主发现可以通过指令让Manus返回它的系统情况,发现ManusAI是Claude Sonnet 3.7+29个工具组成的一个大模型应用系统,也让很多人认为这就是ManusAI的全部,那么这是真的吗?本文结合ManusAI的成员提供的信息为大家介绍。

2025/03/10 22:15:111,048
#AIAgent#Manus
OpenAI更新新版的Assistant API接口到Assistant API v2版本,现在你可以让GPT-4同时搜索1万个文件

OpenAI更新新版的Assistant API接口到Assistant API v2版本,现在你可以让GPT-4同时搜索1万个文件

Assistant API是OpenAI提供的一个大模型助手类的接口,可以让开发者更加自由、准确地构建类AI Assitant系统。一个AI Assistant可以利用大模型、工具和文件来响应用户的问题。

2024/04/18 09:14:16754
#AIAgent#AssistantAPI
OpenAI正在开发一个全新的基于大模型的Agent产品

OpenAI正在开发一个全新的基于大模型的Agent产品

今天The Information独家披露了一个令人兴奋的消息,那就是OpenAI正在开发一种Agent产品,可以通过控制用户的设备来帮助用户完成复杂的任务。

2024/02/08 20:28:56515
#AIAgent#ChatGPT新功能
可能是史上最强大的AI Agent!OpenAI重磅更新:整合了多模态、外部访问、数据分析后的GPT-4更像是AI Agent了!

可能是史上最强大的AI Agent!OpenAI重磅更新:整合了多模态、外部访问、数据分析后的GPT-4更像是AI Agent了!

此前OpenAI的ChatGPT Plus版本为GPT-4模型提供了多个强大的插件供大家使用,包括基于Bing的带网络浏览的Browse、文本生成图片的DALL·E3、高级数据分析功能等。就在几个小时前,OpenAI的部分用户收到了官方的一个非常重磅的更新,即上传任意文档的分析以及整合了所有工具后的GPT-4!这个功能被称为GPT-4(All Tools)!这个工具可以在一次对话中自主选择调用多个不同工具完成用户的输入指令,非常接近AI Agent形态!

2023/10/29 14:56:412,230
#AIAgent#AllTools
如何提高大语言模型作为Agent的能力?清华大学与智谱AI推出AgentTuning方案

如何提高大语言模型作为Agent的能力?清华大学与智谱AI推出AgentTuning方案

尽管开源的大语言模型发展非常迅速,但是,在以大语言模型作为核心的新一代AI Agent解决方案上,开源大语言模型比商业模型表现要明显地差。为了提高大语言模型作为AI Agent的表现和能力,清华大学和智谱AI推出了一种新的方案,AgentTuning,可以将有效增强开源大语言模型作为AI Agent的能力。

2023/10/24 20:33:261,995
#AgentTuning#AIAgent
清华大学ChatGLM团队发布AI Agent能力评测工具AgentBench:GPT-4一骑绝尘,chatglm2表现优秀,baichuan-7b排名倒数!

清华大学ChatGLM团队发布AI Agent能力评测工具AgentBench:GPT-4一骑绝尘,chatglm2表现优秀,baichuan-7b排名倒数!

所谓AI Agent就是一个以LLM为核心控制器的一个代理系统。业界开源的项目如AutoGPT、GPT-Engineer和BabyAGI等,都是类似的例子。然而,并不是所有的AI Agent都有很好的表现,其核心还是取决于LLM的水平。尽管LLM已经在许多NLP任务上取得进步,但它们作为代理完成实际任务的能力缺乏系统的评估。清华大学KEG与数据挖掘小组(就是发布ChatGLM模型)发布了一个最新大模型AI Agent能力评测数据集,对当前大模型作为AI Agent的能力做了综合测评,结果十分有趣。

2023/08/09 21:28:384,134
#AgentBench#AIAgent
AutoGPT是如何让GPT-4自动帮你完成任务的——最火的AutoGPT原理解析!

AutoGPT是如何让GPT-4自动帮你完成任务的——最火的AutoGPT原理解析!

最近几天AutoGPT十分火热,这是由开发者Significant Gravitas推出的项目。该项目可以根据你设置的目标,使用GPT-4自动帮你完成所有的任务。你只要提供OpenAI的API Key,保证里面有钱,那么它就可以根据你设定的目标,采用Google搜索、浏览网站、执行脚本等方式帮你完成目标。

2023/08/09 21:24:0614,401
#AIAgent#AutoGPT
上一页
12
下一页

专题合集

RAG(检索增强生成)Long Context 长上下文AI Agent 实践

最热博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8H5文件简介和使用

今日推荐

  • Ubuntu 命令行 指定GPU 运行 Python 程序
  • 最新OpenAI的API透露,ChatGPT Plus外还有升级版的订阅计划:ChatGPT Team!25美元一个月!Plus用户可能没有GPT-4-32K了!
  • Google Gemini Pro 1.5重大更新:新增音频理解、单次处理任何格式数据、更强大的函数调用和JSON模式,DataLeanrerAI实测音频理解能力优秀,且免费使用!
  • 如何更好地使用 Sora2 生成视频?来自 OpenAI 官方的终极 Prompt 指南
  • 一张图看清楚HTML语法的结构和名称
  • 参数估计之极大似然估计、极大后验估计和贝叶斯参数估计
  • 最新好课!从深度学习到stable diffusion的手把手入门教程
  • 帮助你提升知识和技能的17个数据科学项目(都是可以免费获取的)