标签

「Agent」相关文章

汇总「Agent」相关的原创 AI 技术文章与大模型实践笔记，持续更新。

标签:#Agent

模型调优做完之后，还有一个坑没填：生命周期

Azure OpenAI 的模型下架周期正在变短：gpt-5.1 之前所有版本从上架到弃用都是365天，但从 gpt-5.2 开始骤降到约180天。本文用官方生命周期数据，分析企业做 Agent 应用调优时该如何应对模型版本更替加快的问题。

2026-07-25 09:36:5312

#Agent工程 #企业级AI应用

2026年5月份 AI Agent 产品中的记忆设计与工程实践

过去一年里，AI Agent 的“记忆”设计明显从“把更多历史塞进上下文窗口”转向了更工程化的多层体系：把当前上下文当作**工作记忆**，把会话记录、屏幕轨迹、日志等当作**情节记忆**，把稳定偏好、约定、知识摘要当作**语义记忆**，再把规则、技能、流程模板当作一种接近平行“程序性记忆”的外化层。Anthropic、OpenAI、OpenClaw、Hermes、Cursor 等产品虽然界面不同，但其核心都在解决同一个问题：如何在**有限上下文、可接受延迟、可控成本**下，为 agent 提供持续、一致、

2026/05/25 19:23:18439

#AIAgent #AIAgent记忆管理

2026年5月份全球AI Agent产品与工程实践的最新行业方向与技术路线研究

过去两年，AI Agent 的重心已经明显从“把更强模型接上几个函数”转向“把模型放进一个可恢复、可观测、可治理、可扩展的运行时系统”。最强的行业信号并不只是模型能力升级，而是 OpenAI 把 Background mode、Sessions、Agents SDK、Tracing、Evals 做成一等开发面；Anthropic 把 Skills、MCP、Memory、Compaction、Context Editing、Advisor、Managed Agents 逐步补齐；Google 把 ADK、A

2026/05/25 19:20:541,584

#AIAgent #AIAgent报告

2026年5月份最新AI Agent系统设计与技术进展研究报告

本报告按用户要求以中文撰写，时间范围优先覆盖 2024–2026，并纳入若干对当前路线仍具决定性影响的 2023 奠基工作；不假设预算、组织规模或行业约束。报告优先采用近两年论文、顶会/期刊页面、arXiv 摘要页，以及 OpenAI、Anthropic、Google、AWS、Microsoft、Salesforce、NIST、OWASP 等一手文档。

2026/05/19 17:17:214,681

#AIAgent #Reports

HTML是AI输出的新标准吗？一个来自Anthropic工程师的挑衅性论断

Anthropic Claude Code工程师Thariq发文称HTML应取代Markdown成为AI输出的新标准，并提供了20个HTML示例覆盖代码审查、设计系统、原型交互等9类场景。本文分析了HTML胜出的三类结构性原因——空间信息降维损失、交互体验不可替代、HTML作为原生交付介质，同时指出该论断在token成本和生成速度约束下过于绝对。文章进一步探讨了AI文档格式的终局：结构化数据+渲染分离、模板填充、AI-native语义格式等可能方向。

2026/05/10 22:29:25548

#AIAgent #Anthropic

Moltbook 是什么？一个专为 AI Agent 或者说是 OpenClaw（前身为 Clawdbot 或 Moltbot）设计的社交网络，以及最有趣的讨论案例收集

Moltbook 是一个创新的社交网络平台，专为 AI Agent 设计，在这里它们可以分享内容、参与讨论，并进行投票和点赞活动。人类用户仅限于观察者角色，无法直接互动。这个平台类似于 Reddit 的结构，允许 AI Agent 创建子社区（称为 submolt）、发布帖子、评论，并通过 API 接口进行操作，而不是视觉图形界面。

2026/05/03 14:46:521,883

#AIAgent #Clawdbot

AI Agent 长任务中断、状态丢失、context 超限怎么办？拆解 Anthropic Managed Agents 的架构设计

在 AI Agent 开发中，任务中断、状态丢失、context 超限是三个最常见的工程痛点。Anthropic 最新发布的 Managed Agents 工程博客给出了一套结构性解法：将 Agent 的大脑（调度逻辑）、手（执行环境）和记忆（会话日志）彻底解耦，让每个组件都能独立失败和重启，同时把完整的事件历史存在 context window 之外，从根本上解决长任务的状态管理问题。本文拆解这套架构的核心设计决定，以及背后的工程思路。

2026/04/09 14:05:59367

#Agent #Claude

AI 的下一阶段，不是更长的推理链，而是真正的行动力，大模型训练将从“推理式思考”走向“智能体式思考”——前 Qwen 负责人林俊旸（Junyang Lin）最新判断

unyang 是前 Qwen（通义千问）负责人，前段时间他的离职造成了许多人的关注。不过他并未沉寂，就在刚才，Junyang 发表了一篇关于如何训练大模型推理能力、以及未来大模型推理能力训练应该走向何方的深度讨论。

2026/04/06 11:07:43755

#Agent设计 #大模型Agent

PinchBench：OpenClaw AI 代理真实任务基准测试介绍

PinchBench 是 Kilo Code 团队开发的开源基准测试系统，用于评估大型语言模型作为 OpenClaw 编码代理核心的表现。该系统运行一组固定真实世界任务，计算代理的任务完成成功率，同时记录执行速度和成本。所有结果通过公开排行榜 https://pinchbench.com 显示，目前包含 50 个模型的 403 次运行记录，最新更新时间为 2026 年 3 月 18 日。基准测试的代码和任务定义全部开源在 GitHub（pinchbench/skill 仓库），任何开发者均可本地复现或添加

2026/03/18 17:00:131,663

#ClawBench #PinchBench

AI编码领域的转变：Karpathy的2026年反思与Boris Cherny的Claude Code团队回应

Andrej Karpathy预测2026年AI将主导软件编码工作流，带来巨大效率提升，但可能引发低质代码泛滥（slopacolypse）。Anthropic的Boris Cherny以Claude Code团队实践回应，展示近100% AI生成代码、通用工程师招聘策略，以及通过模型迭代有效控制质量问题。

2026/01/29 08:47:141,312

#AIAgent #AndrejKarpathy

看特斯拉前AI总监、OpenAI前知名研究员Andrej Karpathy如何看AI大模型编程（Claude Code这样的工具）：AI Agent正在重塑编码工作流，2026年的软件工程大变革

本文整理了 Andrej Karpathy 在 2025 年底关于 AI Agent 编程的核心观点。基于其使用 Claude Code 等大模型的真实工程经验，Karpathy 认为软件工程正从“手动编码”转向“由 AI Agent 执行、人类定义目标与约束”的新范式。文章同时分析了 AI Agent 在效率提升之外带来的工程风险、技能退化与内容质量问题，并指出 2026 年将是行业系统性消化 AI Agent 能力的关键一年。

2026/01/27 08:49:431,742

#AIAgent #AndrejKarpathy

大模型工具使用的三次进化：从 Function Calling 到程序化编排

本文系统梳理了大模型工具使用（Tool Use）的三个演进阶段：循环式工具选择（Function Calling）、计划驱动执行（Plan-then-Execute）和程序化工具编排（Programmatic Tool Calling）。从 OpenAI Function Calling 的单次调用模式，到支持并行调度的计划-执行范式，再到最新的代码驱动编排方式，工具使用正在从"逐步决策"走向"计划驱动、代码驱动"。

2026/01/08 22:08:571,133

#AIAgent #FunctionCalling

为什么大模型企业都在强调可以连续工作XX小时的Agent和模型？长时运行Agent解析（Long-Running Agents）

AI Agent 的一个关键趋势正在浮现：从“快速回答问题”转向“长时间稳定执行复杂任务”。本文系统梳理了为什么 Anthropic、OpenAI 等企业开始强调“长时运行 Agent”，并解释其真实含义并非模型一直思考，而是通过作业化、异步执行、可恢复运行和动态上下文管理，实现跨会话完成复杂目标。文章深入对比了长时 Agent 与传统脚本化 LLM Loop 的本质差异，分析其在自治能力、上下文工程、耐久执行与治理上的核心价值，并总结构建长时运行 AI Agent 所需的关键技术等。

2026/01/04 23:01:191,147

#AIAgent #Long-RunningAgents

在大模型时代，AI 产品为什么更难复用？AI Agent产品应该如何开发？来自 Manus 的3个工程实践经验

本文基于 Manus 一线工程成员的真实实践，总结并分析了大模型时代 AI 产品在工程与复用层面发生的关键变化。文章并不关注模型参数或算法细节，而是聚焦于真实生产环境中的工程问题：功能交付的责任边界如何变化、为何原型验证比完整规划更重要，以及在 Agent 系统中个人角色与系统边界如何被重新定义。这些经验揭示了一个趋势——在大模型具备“执行能力”之后，AI 产品的可用性越来越依赖工程体系本身，而非模型能力本身。本文适合关注 AI 工程实践、Agent 架构以及大模型落地问题的技术读者参考。

2025/12/28 20:44:13629

#AIAgent经验 #AI产品

Minion Skills: Claude Skills的开源实现

本文介绍了 Claude 最近推出的 Skills 系统，以及作者在 Minion 框架中实现的一个完全开源的版本。Skills 的核心思路是让 AI Agent 在需要时再加载对应的专业能力，而不是一开始就把所有工具和知识都塞进上下文，从而缓解上下文窗口有限、成本高、响应慢的问题。

2025/12/17 22:06:311,078

#Agent技巧 #ClaudeSkills

Anthropic 最新 Agent 工程方案：使用双 Agent 架构让 AI 实现真正的长时自主工作

就在昨天，Anthropic 发布了一套非常重要的工程方案，专门针对这些挑战而设计：基于“Initializer Agent + Coding Agent”的双 Agent 架构。

2025/11/27 20:34:301,498

#AIAgent #大模型应用

Terminal-Bench 评测全解析：一个用于评测大模型在终端环境使用工具能力的评测基准以及Terminal 1.0与 2.0 的完整对比

本文介绍 Terminal-Bench 的设计理念，深入讲解 core、Terminal-Bench Hard 与最新 Terminal-Bench 2.0 的区别，帮助开发者选择合适的 AI 终端评测基准。

2025/11/24 14:11:542,434

#大模型Agent能力评测 #大模型评测

BrowseComp：OpenAI发布的AI Agent网页浏览能力评估基准

BrowseComp是一个用于评估AI代理网页浏览能力的基准测试。它包含1266个问题，这些问题要求代理在互联网上导航以查找难以发现的信息。该基准关注代理在处理多跳事实和纠缠信息时的持久性和创造性。OpenAI于2025年4月10日发布此基准，并将其开源在GitHub仓库中。

2025/11/07 10:52:40750

#AIAgent评测 #大模型评测

如何让你的Agent更快，支持更多上下文？Anthropic发布Skills：专为AI Agent系统打造的专业领域工具规范，MCP强大的补充，更低的门槛和资源消耗

Anthropic 正式推出全新功能 Claude Skills，旨在让通用 AI 代理（Agent）具备专业领域能力。该功能允许用户通过创建包含 SKILL.md 文件的技能文件夹，为 Claude 注入可执行脚本、模板与资源，实现 Excel 处理、PPT 生成等特定任务的自动化操作。与传统提示词不同，Skills 采用结构化加载与本地沙箱执行机制，兼顾安全性与效率。

2025/10/17 13:12:331,787

#AIAgent #Claude

如何评估大模型的Agent能力？τ²-Bench：评估双控对话智能体的新标准

为了解决大模型的Agent操作依赖交互和人工处理这个问题，普林斯顿大学与 Sierra Research 的研究团队在 2025 年 6 月提出了 τ²-Bench（Tau-Squared Benchmark），并发布了论文《τ²-Bench: Evaluating Conversational Agents in a Dual-Control Environment》。它是对早期 τ-Bench 的扩展版本，旨在建立一种标准化方法，评估智能体在与用户共同作用于环境时的表现。

2025/10/12 10:03:581,434

#大模型Agent能力评测 #大模型评测

直接使用大模型通过界面来操作电脑和浏览器：谷歌发布Gemini 2.5 Computer Use 模型，重塑 AI 与界面交互能力，实测优秀~

就在昨天，2025年10月7日，Google DeepMind 正式发布其最新模型——Gemini 2.5 Computer Use。该模型基于 Gemini 2.5 Pro 的视觉理解与推理能力，新增了“界面交互（UI 控制）”能力，能够在浏览器或移动端界面上像人类那样点击、输入、滚动、选择控件等操作。

2025/10/08 22:15:371,002

#AIAgent #Gemini2.5ComputerUse

如何快速五分钟就能了解GitHub中一个项目的代码架构和逻辑：智谱类DeepResearch的大模型产品Zread介绍，GitHub仓库解读神器

智谱AI于2025年7月发布了Zread。这款产品能够利用其大模型能力，结合类似Deep Research的Agent技术，对GitHub项目进行深度解读和问答。其价值在于将强大的模型能力通过优秀的工程化设计，变成了一个真正“好用”的工具。它解决的正是那种“代码就在那里，但我就是看不懂”的尴尬，这种体验是单纯聊天机器人无法替代的。

2025/09/27 20:55:06815

#AIAgent #Zread

Moonshot AI发布Kimi K2-Instruct-0905：256K上下文长度加持，全面升级的开放式智能体模型

今日，Moonshot AI正式发布了最新旗舰模型 Kimi K2-Instruct-0905。这是一款基于混合专家架构（MoE）的前沿大语言模型，总参数规模达到 1万亿，激活参数为 320亿，不仅在编码智能上实现了断层式提升，更凭借 256K超长上下文成为当前同类产品中的佼佼者。官方称其在公共基准和真实智能体任务上的表现均有显著突破，已对标并超越部分国际顶尖模型。

2025/09/06 04:23:041,053

#AIAgent #K2

如何评价大模型和AI Agent在命令行环境中执行工具解决任务的能力？Terminal Bench评测简介

Terminal-Bench是一个新兴的开源基准测试，专为评估人工智能Agent（AI Agent）在命令行终端环境中的实际操作能力而设计。它通过一系列模拟真实世界场景的复杂任务，旨在客观、可量化地衡量AI Agent在执行代码编译、服务器管理和数据处理等任务时的熟练程度与自主性。

2025/07/23 16:56:161,175

#AIAgent评测 #TerminalBench