Terminal-Bench 2.1：终端环境下的AI代理评测基准

Terminal-Bench是一个针对AI代理在真实终端环境中的能力评测基准，由Stanford University与Laude Institute合作开发。Terminal-Bench 2.1是2.0的改进版本，基于Z.ai的Terminal-Bench 2.0 Verified进行优化，目前处于活跃状态，但任务尚未完全上传。

该基准聚焦软件工程、系统管理、机器学习、数据处理、安全等领域中的多步终端任务，强调端到端执行而非单纯代码生成。每个任务置于独立的Docker环境中，通过测试脚本验证最终状态。

当前终端代理评测面临的问题

现有许多代理评测基准存在以下情况：任务难度不足以区分前沿模型；验证机制不够严格，导致部分任务可通过作弊或不可复现方式通过；任务与真实工作流脱节，难以反映实际部署价值；容易出现训练数据污染或过拟合。

Terminal-Bench系列旨在解决这些问题，通过真实容器环境、严格的人工验证和结果导向评估，提供更可靠的信号。

基准基本信息与目标

发布者：Stanford University与Laude Institute合作项目，GitHub仓库包括harbor-framework/terminal-bench等。官网为tbench.ai。

版本时间线：Terminal-Bench 1.0包含约80个任务；2.0于2025年发布，包含89个精心挑选的任务；2.1为后续改进版，聚焦修复问题并提升可靠性。

核心目标：评估AI代理在终端中完成复杂、长时程真实任务的能力，包括代码编译、模型训练、服务器配置、调试等。这些任务源于实际工作流，旨在衡量代理的系统级推理、错误恢复和工具使用能力，而非仅依赖模式匹配。

主要方案与评测流程

任务结构：每个任务包含：

一条自然语言指令；
预配置的Docker环境；
验证最终容器状态的测试脚本（outcome-driven，不检查具体命令）；
人工编写的参考解决方案；
时间限制。

任务数量与类别（以2.0为例，2.1为改进版）：89个任务，覆盖软件工程、系统管理、数据科学、安全、机器学习等。任务难度经贡献者预估（专家与初级工程师时间），并经多轮审核。

评估方法：

代理在容器内通过shell命令或工具交互完成任务；
使用Harbor框架运行，支持多种代理脚手架（如Codex CLI、Terminus 2、OpenHands等）；
每次任务多次运行以计算成功率（resolution rate），报告置信区间；
强调可复现性与防作弊设计。

流程：贡献者提交任务 → 自动化与人工多轮验证（约每任务3小时审核） → 纳入基准 → 代理提交运行 → leaderboard排名。

当前主流模型评测结果

根据公开leaderboard和论文数据（主要基于2.0，2.1结果正在更新）：

前沿模型结合优化代理的成功率通常在50%-90%区间，具体取决于代理脚手架和计算资源。

典型表现（2.0数据示例）：

顶级组合（如特定代理+Claude Opus 4.7或GPT-5.5系列）可达80%以上；
其他前沿专有模型多在50%-70%；
开源权重模型中较优者约36%；
较小模型约15%。

分析要点：

模型选择通常比代理脚手架影响更大；
增加计算时间（超时）可显著提升成功率，表明部分差距源于资源而非能力；
存在未被任何模型解决的任务，显示基准仍有区分度；
硬件资源（如RAM）也会影响结果，需注意标准化。

Leaderboard实时更新，支持按模型、代理、组织筛选，并有验证提交要求。

总结

Terminal-Bench 2.1延续了系列对终端代理真实能力的严格评估，通过改进验证流程和任务质量，提供了一个面向实际部署的基准。它突出了当前前沿模型在长时程、多步终端任务中的表现差异，同时为代理开发者和研究者提供了可复现的工具和数据集。

随着2.1任务逐步上线及3.0的开发，该基准将继续推动AI代理向更可靠的系统级应用演进。开发者可通过tbench.ai和Harbor框架参与测试或贡献。

参考来源包括官网tbench.ai、相关论文及leaderboard数据。实际结果以最新leaderboard为准。

当前终端代理评测面临的问题

基准基本信息与目标

主要方案与评测流程

当前主流模型评测结果

总结

DataLearner 官方微信