验证循环 (Verification Loop) · AI Agent 雷达

长时运行 Agent 最大的风险是“假完成”：模型自信地说“我做完了”，但实际代码没编译、测试没跑过、需求没满足。验证循环就是 Agent 自己核验工作成果的机制。

成熟的验证循环通常包括几个层次：

运行测试 / 静态检查：最基础、最客观的证据，例如单元测试、集成测试、type check、lint。
观察执行日志和输出：判断行为是否符合预期，捕捉静默失败。
对照需求逐项核对：用清单把任务拆成可逐条勾选的小项。
独立评估器：由另一个 Agent 或一段判定代码来打分，避免“自评自证”。

验证循环和 Goal 模式是一对配套机制：Goal 定义“什么算完成”，验证循环判断“是否真的完成”。可以说，长时运行 Agent 的可靠性，本质上等于验证循环的质量。这也是为什么近一年来业界对 trace-based evaluation、agent benchmarking 等方向的兴趣明显升温。

验证循环Verification Loop

参考资料