TerminalBench 2.1

Terminal-Bench是一个针对AI代理在真实终端环境中的能力评测基准，由Stanford University与Laude Institute合作开发。Terminal-Bench 2.1是2.0的改进版本，基于Z.ai的Terminal-Bench 2.0 Verified进行优化，目前处于活跃状态，但任务尚未完全上传。

更新于 2026年7月1日·251 次浏览

问题数量: 89
发布机构: Stanford CRFM
评测类别: AI Agent - 工具使用
评测指标: Accuracy
支持语言: 英文
难度等级: 中等难度

简介

一个针对AI代理在真实终端环境中的能力评测基准，由Stanford University与Laude Institute合作开发

TerminalBench 2.1评测最新大模型排名与完整榜单数据

查看 TerminalBench 2.1 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型模式说明

许可证:

来源:

模型发布时间截止:

排名	模型				开源情况
	GPT-5.6 Sol 思考水平·Max	88.76	2026-06-26	未知	闭源
	Claude Fable 5 思考水平·高工具	88.00	2026-06-09	未知	闭源
	Claude Fable 5 深度思考模式工具	88.00	2026-06-09	未知	闭源
4	GPT-5.5 思考水平·高工具	83.40	2026-04-23	未知	闭源
5	GLM-5.2 思考水平·高工具	81.00	2026-06-13	7533.3亿	免费商用
6	Claude Sonnet 5 思考水平·极高工具	80.40	2026-06-30	未知	闭源
7	Claude Opus 4.8 思考水平·高工具	78.90	2026-05-28	未知	闭源
8	Gemini 3.5 Flash 思考水平·高工具	76.20	2026-06-20	未知	闭源
9	Gemini 3 Pro 思考水平·高工具	74.40	2026-02-01	未知	闭源
10	Gemini 3.1 Pro Preview 思考水平·高工具	70.70	2026-02-20	未知	闭源
11	Opus 4.7 思考水平·高工具	69.70	2026-04-16	未知	闭源
12	Kimi K2.7 Code 开启思考工具	67.04	2026-06-12	10000亿	免费商用
13	MiniMax M3 开启思考工具	66.00	2026-06-01	4280亿	非商用
14	GLM 5.1 思考水平·高工具	58.70	2026-03-27	754亿	免费商用
15	Gemini 3.0 Flash 思考水平·高工具	58.00	2025-12-17	未知	闭源
16	Kimi K2.6 开启思考	53.56	2026-04-20	10000亿	免费商用

TerminalBench 2.1评测最新大模型排名与完整榜单数据

TerminalBench 2.1 排名