基础概念
Agent Harness
Agent 能力强不强,模型只是一部分原因
收录于 2026-05-13·最近更新 2026-05-13·热门词条
如果同一个底层模型(比如 GPT-5 或 Claude Sonnet 4.6),在 Cursor、Claude Code、Codex 里能力差异巨大——差距究竟来自哪里?
2026 年 5 月,一篇研究论文系统性提出了 Agent Harness 概念:模型外面那层"运行系统"——它承担着任务描述、上下文选择、工具权限、记忆管理、状态维护、行为观测、失败归因、结果验证、人工介入记录等一系列职责。论文把这些职责整理成一门工程学科 —— Harness Engineering。
这个视角的价值在于:评价一个 Agent 产品,不能只看它用了什么模型,更要看它的 harness 怎么设计。同一个模型,配上不同的 harness,行为差异可能远大于换一个模型。具体差异通常体现在:
- 上下文怎么裁剪—整个仓库塞进去 vs. 按需检索、按相关性裁剪。
- 工具权限怎么管理—开放所有 shell 命令 vs. 按任务声明、按风险分级。
- 验证怎么做—信任模型说"做完了" vs. 跑测试 / 静态检查 / 独立评估器。
- 失败怎么记录—只看最终结果 vs. 完整审计轨迹和归因分析。
理解 harness 也帮助你判断为什么一些"看起来很酷"的开源 Agent 项目,落地到真实生产环境时表现远不如商业产品——差距通常不在模型,而在 harness 的工程质量。
相关产品
- Claude Code — 把 harness 工程能力当作核心卖点(Stop Hook、Goal、Routines、auto memory 等都是 harness 的组成部分)。
- OpenAI Codex — 云端沙盒、插件生态、Memory preview 等都属于 harness 层的工程能力。