DataLearner logoDataLearnerAI
Latest AI Insights
Model Evaluations
Model Directory
Model Comparison
Resource Center
Tool Directory

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
  1. Back to benchmark list
  2. /
  3. Terminal Bench Hard

Terminal Bench Hard 评测基准详情

本文介绍 Terminal-Bench 的设计理念,深入讲解 core、Terminal-Bench Hard 与最新 Terminal-Bench 2.0 的区别,帮助开发者选择合适的 AI 终端评测基准。

更新2026-02-20
Views807
问题数量
47
发布机构
个人
评测类别
Agent能力评测
评测指标
Accuracy
支持语言
英文
难度等级
高难度

简介

Artificial Analysis选择的用于评估大模型在终端环境下使用工具能力的评测基准

相关资源

查看原始论文
阅读学术论文原文
获取数据集
下载评测数据集
访问官网
浏览项目官方网站
DataLearner 介绍
中文详细解读

Terminal Bench Hard Model Score Leaderboard

Source: DataLearnerAI

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

模式说明:
normal
thinking
low
medium
high
deeper thinking
parallel_thinking
图表加载中...

详细评测数据

No parallel thinking results available

Terminal Bench Hard详细排名数据表格

排名模型
1
Claude Opus 4.6default
492026-02-05未知
2
Claude Opus 4.6default
462026-02-05未知
3
Claude Opus 4.5default
442025-11-25未知
4
GPT-5.1default
432025-11-12未知
5
GLM-5default
432026-02-117440
6
Gemini 3.0 Pro (Preview 11-2025)default
422025-11-18未知
7
Gemini 3.0 Pro (Preview 11-2025)default
392025-11-18未知
8
GLM-4.7default
33.32025-12-223580
9
Claude Sonnet 4.5default
332025-09-30未知
10
Claude Opus 4.1default
322025-08-06未知
11
GLM-4.7-Flashdefault
322026-01-19310
12
GLM-4.7-Flashdefault
302026-01-19310
13
Gemini 2.5-Prodefault
252025-06-05未知
14
Claude Sonnet 3.7default
212025-02-25未知