Terminal-Bench 2.1:终端环境下的AI代理评测基准
Terminal-Bench是一个针对AI代理在真实终端环境中的能力评测基准,由Stanford University与Laude Institute合作开发。Terminal-Bench 2.1是2.0的改进版本,基于Z.ai的Terminal-Bench 2.0 Verified进行优化,目前处于活跃状态,但任务尚未完全上传。
该基准聚焦软件工程、系统管理、机器学习、数据处理、安全等领域中的多步终端任务,强调端到端执行而非单纯代码生成。每个任务置于独立的Docker环境中,通过测试脚本验证最终状态。
当前终端代理评测面临的问题
现有许多代理评测基准存在以下情况:任务难度不足以区分前沿模型;验证机制不够严格,导致部分任务可通过作弊或不可复现方式通过;任务与真实工作流脱节,难以反映实际部署价值;容易出现训练数据污染或过拟合。
Terminal-Bench系列旨在解决这些问题,通过真实容器环境、严格的人工验证和结果导向评估,提供更可靠的信号。
基准基本信息与目标
:Stanford University与Laude Institute合作项目,GitHub仓库包括harbor-framework/terminal-bench等。官网为tbench.ai。
