TerminalBench 2.1
Terminal-Bench是一个针对AI代理在真实终端环境中的能力评测基准,由Stanford University与Laude Institute合作开发。Terminal-Bench 2.1是2.0的改进版本,基于Z.ai的Terminal-Bench 2.0 Verified进行优化,目前处于活跃状态,但任务尚未完全上传。
更新于 2026年5月20日·6 次浏览
- 问题数量
- 89
- 发布机构
- Stanford CRFM
- 评测类别
- AI Agent - 工具使用
- 评测指标
- Accuracy
- 支持语言
- 英文
- 难度等级
- 中等难度
简介
一个针对AI代理在真实终端环境中的能力评测基准,由Stanford University与Laude Institute合作开发
TerminalBench 2.1评测最新大模型排名与完整榜单数据
查看 TerminalBench 2.1 的最新得分、模型模式、发布时间与参数规模,快速了解当前完整榜单表现。
数据来源:DataLearnerAI
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
模型模式说明
许可证:
来源:
模型发布时间截止:
TerminalBench 2.1 排名
| 排名 | 模型 | 开源情况 | |||
|---|---|---|---|---|---|
![]() Gemini 3.5 Flash 思考水平 · 高工具 | 76.20 | 2026-06-20 | 未知 | 闭源 | |
![]() Gemini 3.0 Flash 思考水平 · 高工具 | 58.00 | 2025-12-17 | 未知 | 闭源 |
