DataLearner logoDataLearnerAI
Latest AI Insights
Model Evaluations
Model Directory
Model Comparison
Resource Center
Tool Directory

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
  1. Back to benchmark list
  2. /
  3. Terminal-Bench

Terminal-Bench 评测基准详情

Terminal-Bench是一个新兴的开源基准测试,专为评估人工智能Agent(AI Agent)在命令行终端环境中的实际操作能力而设计。它通过一系列模拟真实世界场景的复杂任务,旨在客观、可量化地衡量AI Agent在执行代码编译、服务器管理和数据处理等任务时的熟练程度与自主性。

更新2026-02-20
Views1,210
问题数量
100
发布机构
个人
评测类别
AI Agent - 工具使用
评测指标
Accuracy
支持语言
英文
难度等级
高难度

简介

用于评测大模型在命令行环境下执行工具的Agentic能力的评测基准

相关资源

查看原始论文
阅读学术论文原文
获取数据集
下载评测数据集
访问官网
浏览项目官方网站
DataLearner 介绍
中文详细解读

Terminal-Bench Model Score Leaderboard

Source: DataLearnerAI

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

模式说明:
normal
thinking
low
medium
high
deeper thinking
parallel_thinking
图表加载中...

详细评测数据

No parallel thinking results available

Terminal-Bench详细排名数据表格

排名模型
1
GPT-5.1-Codex-Maxdefault
58.12025-11-19未知
2
GPT-5.1 Codexdefault
56.32025-11-14未知
3
Claude Sonnet 4.5default
502025-09-30未知
4
Kimi K2 Thinkingdefault
47.12025-11-0610400
5
Claude Opus 4.1default
46.52025-08-06未知
6
Kimi K2 0905default
44.52025-09-0510000
7
Kimi K2 0905default
44.52025-09-0510000
8
GPT-5default
43.82025-08-07未知
9
Claude Opus 4.1default
43.32025-08-06未知
10
Claude Sonnet 4default
41.32025-05-23未知
11
Haiku 4.5default
412025-10-15未知
12
GLM-4.6default
40.52025-09-303550
13
Grok 4default
382025-07-10未知
14
DeepSeek V3.2-Expdefault
37.72025-09-296710
15
Kimi K2default
37.52025-07-1110000
16
Qwen3-Coder-480B-A35Bdefault
37.52025-07-234800
17
GLM-4.5default
37.52025-07-283550
18
Claude Sonnet 4default
35.52025-05-23未知
19
Qwen3-Coder-Flashdefault
31.32025-07-31305
20
DeepSeek-V3.1default
31.32025-08-206710
21
OpenAI o3default
30.22025-04-16未知
22
GLM-4.5-Airdefault
302025-07-281060
23
DeepSeek-V3.1 Terminusdefault
302025-09-226710
24
DeepSeek-V3.1 Terminusdefault
282025-09-226710
25
Claude Sonnet 4.5default
272025-09-30未知
26
Claude Sonnet 4default
262025-05-23未知
27
Haiku 4.5default
262025-10-15未知
28
Gemini 2.5-Prodefault
25.32025-06-05未知
29
MiniMax M2default
242025-10-272300
30
DeepSeek V3.2-Expdefault
232025-09-296710
将鼠标移至此处继续加载剩余 5 条