基础概念

Agent Harness

Agent 能力强不强，模型只是一部分原因

收录于 2026-05-13·最近更新 2026-05-13·热门词条

如果同一个底层模型在 Cursor、Claude Code、Codex 里能力差异巨大，差距究竟来自哪里？

2026 年 5 月，一篇研究论文系统性提出了 Agent Harness 概念：模型外面那层“运行系统”承担着任务描述、上下文选择、工具权限、记忆管理、状态维护、行为观测、失败归因、结果验证、人工介入记录等一系列职责。论文把这些职责整理成一门工程学科：Harness Engineering。

这个视角的价值在于：评价一个 Agent 产品，不能只看它用了什么模型，更要看它的 harness 怎么设计。同一个模型，配上不同的 harness，行为差异可能远大于换一个模型。具体差异通常体现在：

上下文怎么裁剪：整个仓库塞进去，还是按需检索、按相关性裁剪。
工具权限怎么管理：开放所有 shell 命令，还是按任务声明、按风险分级。
验证怎么做：信任模型说“做完了”，还是跑测试、静态检查、独立评估器。
失败怎么记录：只看最终结果，还是保留完整审计轨迹和归因分析。

理解 harness 也帮助你判断为什么一些“看起来很酷”的开源 Agent 项目，落地到真实生产环境时表现远不如商业产品：差距通常不在模型，而在 harness 的工程质量。

参考资料

AI Harness Engineering（arXiv 2605.13357）· arXiv

同类词条 · 基础概念