工程实践
验证循环Verification Loop
Agent 能否被信任,几乎全看这一步
收录于 2026-05-05·最近更新 2026-05-05
长时运行 Agent 最大的风险是"假完成"——模型自信地说"我做完了",但实际代码没编译、测试没跑过、需求没满足。验证循环就是 Agent 自己核验工作成果的机制。
成熟的验证循环通常包括几个层次:
- 运行测试 / 静态检查—最基础、最客观的证据——单元测试、集成测试、type check、lint。
- 观察执行日志和输出—判断行为是否符合预期,捕捉静默失败。
- 对照需求逐项核对—用清单 (checklist) 把任务拆成可逐条勾选的小项。
- 独立评估器 (Evaluator)—由另一个 Agent 或一段判定代码来打分,避免"自评自证"。
验证循环和 Goal 模式 是一对配套机制:Goal 定义"什么算完成",验证循环判断"是否真的完成"。可以说,长时运行 Agent 的可靠性,本质上等于验证循环的质量。这也是为什么近一年来业界对 trace-based evaluation、agent benchmarking 等方向的兴趣明显升温。
相关产品
- Claude Code Stop Hook & Goal Evaluator — 把验证机制内置为 Goal 模式的必要支撑。
- Agent benchmark 生态 — SWE-bench、SWE-rebench、Terminal-Bench 等评测体系正在快速发展。