Terminal-Bench 2.1:终端环境下的AI代理评测基准
Terminal-Bench是一个针对AI代理在真实终端环境中的能力评测基准,由Stanford University与Laude Institute合作开发。Terminal-Bench 2.1是2.0的改进版本,基于Z.ai的Terminal-Bench 2.0 Verified进行优化,目前处于活跃状态,但任务尚未完全上传。
该基准聚焦软件工程、系统管理、机器学习、数据处理、安全等领域中的多步终端任务,强调端到端执行而非单纯代码生成。每个任务置于独立的Docker环境中,通过测试脚本验证最终状态。
当前终端代理评测面临的问题
现有许多代理评测基准存在以下情况:任务难度不足以区分前沿模型;验证机制不够严格,导致部分任务可通过作弊或不可复现方式通过;任务与真实工作流脱节,难以反映实际部署价值;容易出现训练数据污染或过拟合。
Terminal-Bench系列旨在解决这些问题,通过真实容器环境、严格的人工验证和结果导向评估,提供更可靠的信号。
基准基本信息与目标
发布者:Stanford University与Laude Institute合作项目,GitHub仓库包括harbor-framework/terminal-bench等。官网为tbench.ai。
版本时间线:Terminal-Bench 1.0包含约80个任务;2.0于2025年发布,包含89个精心挑选的任务;2.1为后续改进版,聚焦修复问题并提升可靠性。
核心目标:评估AI代理在终端中完成复杂、长时程真实任务的能力,包括代码编译、模型训练、服务器配置、调试等。这些任务源于实际工作流,旨在衡量代理的系统级推理、错误恢复和工具使用能力,而非仅依赖模式匹配。
主要方案与评测流程
任务结构:每个任务包含:
- 一条自然语言指令;
- 预配置的Docker环境;
- 验证最终容器状态的测试脚本(outcome-driven,不检查具体命令);
- 人工编写的参考解决方案;
- 时间限制。
任务数量与类别(以2.0为例,2.1为改进版):89个任务,覆盖软件工程、系统管理、数据科学、安全、机器学习等。任务难度经贡献者预估(专家与初级工程师时间),并经多轮审核。
评估方法:
- 代理在容器内通过shell命令或工具交互完成任务;
- 使用Harbor框架运行,支持多种代理脚手架(如Codex CLI、Terminus 2、OpenHands等);
- 每次任务多次运行以计算成功率(resolution rate),报告置信区间;
- 强调可复现性与防作弊设计。
流程:贡献者提交任务 → 自动化与人工多轮验证(约每任务3小时审核) → 纳入基准 → 代理提交运行 → leaderboard排名。
当前主流模型评测结果
根据公开leaderboard和论文数据(主要基于2.0,2.1结果正在更新):
前沿模型结合优化代理的成功率通常在50%-90%区间,具体取决于代理脚手架和计算资源。
典型表现(2.0数据示例):
- 顶级组合(如特定代理+Claude Opus 4.7或GPT-5.5系列)可达80%以上;
- 其他前沿专有模型多在50%-70%;
- 开源权重模型中较优者约36%;
- 较小模型约15%。
分析要点:
- 模型选择通常比代理脚手架影响更大;
- 增加计算时间(超时)可显著提升成功率,表明部分差距源于资源而非能力;
- 存在未被任何模型解决的任务,显示基准仍有区分度;
- 硬件资源(如RAM)也会影响结果,需注意标准化。
Leaderboard实时更新,支持按模型、代理、组织筛选,并有验证提交要求。
总结
Terminal-Bench 2.1延续了系列对终端代理真实能力的严格评估,通过改进验证流程和任务质量,提供了一个面向实际部署的基准。它突出了当前前沿模型在长时程、多步终端任务中的表现差异,同时为代理开发者和研究者提供了可复现的工具和数据集。
随着2.1任务逐步上线及3.0的开发,该基准将继续推动AI代理向更可靠的系统级应用演进。开发者可通过tbench.ai和Harbor框架参与测试或贡献。
参考来源包括官网tbench.ai、相关论文及leaderboard数据。实际结果以最新leaderboard为准。
