Terminal-Bench 评测基准与性能对比

Terminal-Bench是一个新兴的开源基准测试,专为评估人工智能Agent(AI Agent)在命令行终端环境中的实际操作能力而设计。它通过一系列模拟真实世界场景的复杂任务,旨在客观、可量化地衡量AI Agent在执行代码编译、服务器管理和数据处理等任务时的熟练程度与自主性。

Terminal-Bench 大模型得分排行榜

数据来源:DataLearnerAI

Terminal-Bench详细排名数据表格

排名
模型
得分
发布时间
参数(亿)
1
Anthropic Logo
Claude Opus 4.1 thinking + 使用工具
43.3
2025-08-06
0.0
Terminal-Bench得分 43.3
发布时间 2025-08-06
参数(亿) 0.0
查看模型详情
2
智谱AI Logo
GLM-4.5 thinking
37.5
2025-07-28
3550.0
Terminal-Bench得分 37.5
发布时间 2025-07-28
参数(亿) 3550.0
查看模型详情
3
37.5
2025-07-23
4800.0
Terminal-Bench得分 37.5
发布时间 2025-07-23
参数(亿) 4800.0
查看模型详情
4
31.3
2025-07-31
305.0
Terminal-Bench得分 31.3
发布时间 2025-07-31
参数(亿) 305.0
查看模型详情
5
OpenAI Logo
OpenAI o3 thinking
30.2
2025-04-16
未知
Terminal-Bench得分 30.2
发布时间 2025-04-16
参数(亿) 未知
查看模型详情
6
智谱AI Logo
GLM-4.5-Air thinking
30.0
2025-07-28
1060.0
Terminal-Bench得分 30.0
发布时间 2025-07-28
参数(亿) 1060.0
查看模型详情
7
25.3
2025-06-05
未知
Terminal-Bench得分 25.3
发布时间 2025-06-05
参数(亿) 未知
查看模型详情