DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
返回总榜单

大模型 Agent 能力评测排行榜

本页面提供大模型 Agent 能力评测排行榜,涵盖 Aider-Polyglot、τ²-Bench、Terminal Bench 2.0、Tool Decathlon、OSWorld-Verified 等主流 Agent 评测基准,深度对比 GPT、Claude、Qwen、DeepSeek 等模型的工具使用、任务规划与自主执行能力。

数据更新于 2026-05-21 22:14:17

截至 2026年5月,本页覆盖 Aider-Polyglot, τ²-Bench, Terminal Bench 2.0, Tool Decathlon 等评测基准,聚焦 大模型 Agent 能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见 数据方法论。

基准评测
Agent能力评测Aider-Polyglotτ²-Bench
AI Agent - 工具使用Terminal Bench 2.0Tool DecathlonOSWorld-Verified
更多评测
参数规模:全部3B及以下7B13B34B65B100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型
开源:全部开源闭源
来源:全部国产模型
模型发布时间截止:

榜单亮点

按 Terminal Bench 2.0 排序
当前 SOTA
OpenAI

GPT-5.5

OpenAI

82.70Terminal Bench 2.0
查看详情
最佳开源
DeepSeek-AI

DeepSeek-V4-Pro

DeepSeek-AI

67.90Terminal Bench 2.0−14.80
查看详情
最佳国产
阿里巴巴

Qwen3.7-Max-Preview

阿里巴巴

69.70Terminal Bench 2.0−13.00
查看详情

大模型性能评测结果

数据来源:DataLearnerAI

点击任意行查看模型详情;勾选左侧 可对比最多 4 个模型。

排名模型
开源情况
OpenAI
GPT-5.5
思考水平 · 高工具
OpenAI
——82.70—78.70闭源详情详情
Anthropic
Claude Mythos Preview
扩展思考工具
Anthropic
——82.00—79.60闭源详情详情
OpenAI
GPT-5.3 Codex
开启思考工具
OpenAI
——77.30——闭源详情详情
4
OpenAI
GPT-5.4
思考水平 · 极高工具
OpenAI
——75.10—75.00闭源详情详情
5
阿里巴巴
Qwen3.7-Max-Preview
开启思考工具
阿里巴巴
——69.70——闭源详情详情
6
Anthropic
Opus 4.7
扩展思考工具
Anthropic
——69.40—78.00闭源详情详情
7
Cursor
Composer 2.5
开启思考
Cursor
——69.30——闭源详情详情
8
Google Deep Mind
Gemini 3.1 Pro Preview
思考水平 · 高工具
Google Deep Mind
—90.8068.50——闭源详情详情
9
DeepSeek-AI
DeepSeek-V4-Pro
思考水平 · 极高工具
DeepSeek-AI
——67.90——免费商用详情详情
10
Moonshot AI
Kimi K2.6
开启思考工具
Moonshot AI
——66.7050.0073.10免费商用详情详情
11
阿里巴巴
Qwen3.6-Max-Preview
深度思考模式工具
阿里巴巴
——65.40——闭源详情详情
12
Anthropic
Claude Opus 4.6
扩展思考工具
Anthropic
—91.8965.40—72.70闭源详情详情
13
智谱AI
GLM 5.1
开启思考工具
智谱AI
——63.5040.70—免费商用详情详情
14
DeepSeek-AI
DeepSeek-V4-Pro
思考水平 · 高工具
DeepSeek-AI
——63.30——免费商用详情详情
15
Cursor
Composer 2
开启思考
Cursor
——61.70——闭源详情详情
16
阿里巴巴
Qwen3.6-Max-Preview
开启思考工具
阿里巴巴
——61.60——闭源详情详情
17
阿里巴巴
Qwen 3.6 Plus Preview
开启思考工具
阿里巴巴
——61.6039.80—闭源详情详情
18
智谱AI
GLM-5
开启思考工具
智谱AI
—89.7061.10——免费商用详情详情
19
OpenAI
GPT-5.4 mini
思考水平 · 极高工具
OpenAI
——60.0042.9072.10闭源详情详情
20
阿里巴巴
Qwen3.6-27B
开启思考工具
阿里巴巴
——59.30——免费商用详情详情
21
Anthropic
Opus 4.5
扩展思考工具
Anthropic
—81.9959.30——闭源详情详情
22
DeepSeek-AI
DeepSeek-V4-Pro
常规模式工具
DeepSeek-AI
——59.10——免费商用详情详情
23
Anthropic
Claude Sonnet 4.6
开启思考工具
Anthropic
——59.10—72.50闭源详情详情
24
Facebook AI研究实验室
Muse Spark
开启思考工具
Facebook AI研究实验室
——59.00——闭源详情详情
25
DeepSeek-AI
DeepSeek-V4-Flash
思考水平 · 极高工具
DeepSeek-AI
——56.90——免费商用详情详情
26
Google Deep Mind
Gemini 3.0 Pro (Preview 11-2025)
思考水平 · 高工具
Google Deep Mind
——56.90——闭源详情详情
27
DeepSeek-AI
DeepSeek-V4-Flash
思考水平 · 高工具
DeepSeek-AI
——56.60——免费商用详情详情
28
Google Deep Mind
Gemini 3.0 Pro (Preview 11-2025)
开启思考工具
Google Deep Mind
—85.4054.20——闭源详情详情
29
阿里巴巴
Qwen3.5-397B-A17B
开启思考工具
阿里巴巴
—86.7052.5038.3062.20免费商用详情详情
30
MiniMaxAI
MiniMax M2.5
开启思考工具
MiniMaxAI
——51.70——免费商用详情详情
31
阿里巴巴
Qwen3.6-35B-A3B
开启思考
阿里巴巴
——51.5026.90—免费商用详情详情
32
StepFunAI
Step 3.5 Flash
开启思考工具
StepFunAI
—88.2051.00——免费商用详情详情
33
Moonshot AI
Kimi K2.5
开启思考工具
Moonshot AI
——50.80——免费商用详情详情
34
DeepSeek-AI
DeepSeek-V4-Flash
常规模式工具
DeepSeek-AI
——49.10——免费商用详情详情
35
MiniMaxAI
M2.1
开启思考工具
MiniMaxAI
61.00—47.90——免费商用详情详情
36
Cursor
Composer 1.5
开启思考
Cursor
——47.90——闭源详情详情
37
OpenAI
GPT-5.1
思考水平 · 高工具
OpenAI
——47.60——闭源详情详情
38
Google Deep Mind
Gemini 3.0 Flash
开启思考工具
Google Deep Mind
—90.2047.60——闭源详情详情
39
DeepSeek-AI
DeepSeek V3.2
开启思考工具
DeepSeek-AI
69.9080.3046.40——免费商用详情详情
40
OpenAI
GPT-5.4 nano
思考水平 · 极高工具
OpenAI
——46.3035.5039.00闭源详情详情
41
Anthropic
Claude Sonnet 4.5
开启思考工具
Anthropic
—84.7042.80—61.40闭源详情详情
42
阿里巴巴
Qwen3.5-27B
开启思考工具
阿里巴巴
—79.0041.60—56.20免费商用详情详情
43
智谱AI
GLM-4.7
开启思考工具
智谱AI
52.1087.4041.00——免费商用详情详情
44
Cursor
Composer 1
开启思考
Cursor
——40.00——闭源详情详情
45
阿里巴巴
Qwen3-Coder-Next
常规模式工具
阿里巴巴
66.20—36.20——免费商用详情详情
46
Google Deep Mind
Gemini 2.5-Pro
开启思考工具
Google Deep Mind
——32.60——闭源详情详情
47
OpenAI
o3-pro
思考水平 · 高
OpenAI
84.90————闭源详情详情
48
Google Deep Mind
Gemini 2.5-Pro
开启思考
Google Deep Mind
83.10————闭源详情详情
49
OpenAI
OpenAI o3
思考水平 · 高
OpenAI
81.30————闭源详情详情
50
xAI
Grok 4
开启思考
xAI
79.60————闭源详情详情
GPT-5.5
OpenAI
思考水平 · 高工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.082.70
Tool Decathlon—
OSWorld-Verified78.70
闭源
Claude Mythos Preview
Anthropic
扩展思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.082.00
Tool Decathlon—
OSWorld-Verified79.60
闭源
GPT-5.3 Codex
OpenAI
开启思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.077.30
Tool Decathlon—
OSWorld-Verified—
闭源
4
GPT-5.4
OpenAI
思考水平 · 极高工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.075.10
Tool Decathlon—
OSWorld-Verified75.00
闭源
5
Qwen3.7-Max-Preview
阿里巴巴
开启思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.069.70
Tool Decathlon—
OSWorld-Verified—
闭源
6
Opus 4.7
Anthropic
扩展思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.069.40
Tool Decathlon—
OSWorld-Verified78.00
闭源
7
Composer 2.5
Cursor
开启思考
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.069.30
Tool Decathlon—
OSWorld-Verified—
闭源
8
Gemini 3.1 Pro Preview
Google Deep Mind
思考水平 · 高工具
Aider-Polyglot—
τ²-Bench90.80
Terminal Bench 2.068.50
Tool Decathlon—
OSWorld-Verified—
闭源
9
DeepSeek-V4-Pro
DeepSeek-AI
思考水平 · 极高工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.067.90
Tool Decathlon—
OSWorld-Verified—
免费商用
10
Kimi K2.6
Moonshot AI
开启思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.066.70
Tool Decathlon50.00
OSWorld-Verified73.10
免费商用
11
Qwen3.6-Max-Preview
阿里巴巴
深度思考模式工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.065.40
Tool Decathlon—
OSWorld-Verified—
闭源
12
Claude Opus 4.6
Anthropic
扩展思考工具
Aider-Polyglot—
τ²-Bench91.89
Terminal Bench 2.065.40
Tool Decathlon—
OSWorld-Verified72.70
闭源
13
GLM 5.1
智谱AI
开启思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.063.50
Tool Decathlon40.70
OSWorld-Verified—
免费商用
14
DeepSeek-V4-Pro
DeepSeek-AI
思考水平 · 高工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.063.30
Tool Decathlon—
OSWorld-Verified—
免费商用
15
Composer 2
Cursor
开启思考
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.061.70
Tool Decathlon—
OSWorld-Verified—
闭源
16
Qwen3.6-Max-Preview
阿里巴巴
开启思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.061.60
Tool Decathlon—
OSWorld-Verified—
闭源
17
Qwen 3.6 Plus Preview
阿里巴巴
开启思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.061.60
Tool Decathlon39.80
OSWorld-Verified—
闭源
18
GLM-5
智谱AI
开启思考工具
Aider-Polyglot—
τ²-Bench89.70
Terminal Bench 2.061.10
Tool Decathlon—
OSWorld-Verified—
免费商用
19
GPT-5.4 mini
OpenAI
思考水平 · 极高工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.060.00
Tool Decathlon42.90
OSWorld-Verified72.10
闭源
20
Qwen3.6-27B
阿里巴巴
开启思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.059.30
Tool Decathlon—
OSWorld-Verified—
免费商用
21
Opus 4.5
Anthropic
扩展思考工具
Aider-Polyglot—
τ²-Bench81.99
Terminal Bench 2.059.30
Tool Decathlon—
OSWorld-Verified—
闭源
22
DeepSeek-V4-Pro
DeepSeek-AI
常规模式工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.059.10
Tool Decathlon—
OSWorld-Verified—
免费商用
23
Claude Sonnet 4.6
Anthropic
开启思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.059.10
Tool Decathlon—
OSWorld-Verified72.50
闭源
24
Muse Spark
Facebook AI研究实验室
开启思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.059.00
Tool Decathlon—
OSWorld-Verified—
闭源
25
DeepSeek-V4-Flash
DeepSeek-AI
思考水平 · 极高工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.056.90
Tool Decathlon—
OSWorld-Verified—
免费商用
26
Gemini 3.0 Pro (Preview 11-2025)
Google Deep Mind
思考水平 · 高工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.056.90
Tool Decathlon—
OSWorld-Verified—
闭源
27
DeepSeek-V4-Flash
DeepSeek-AI
思考水平 · 高工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.056.60
Tool Decathlon—
OSWorld-Verified—
免费商用
28
Gemini 3.0 Pro (Preview 11-2025)
Google Deep Mind
开启思考工具
Aider-Polyglot—
τ²-Bench85.40
Terminal Bench 2.054.20
Tool Decathlon—
OSWorld-Verified—
闭源
29
Qwen3.5-397B-A17B
阿里巴巴
开启思考工具
Aider-Polyglot—
τ²-Bench86.70
Terminal Bench 2.052.50
Tool Decathlon38.30
OSWorld-Verified62.20
免费商用
30
MiniMax M2.5
MiniMaxAI
开启思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.051.70
Tool Decathlon—
OSWorld-Verified—
免费商用
31
Qwen3.6-35B-A3B
阿里巴巴
开启思考
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.051.50
Tool Decathlon26.90
OSWorld-Verified—
免费商用
32
Step 3.5 Flash
StepFunAI
开启思考工具
Aider-Polyglot—
τ²-Bench88.20
Terminal Bench 2.051.00
Tool Decathlon—
OSWorld-Verified—
免费商用
33
Kimi K2.5
Moonshot AI
开启思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.050.80
Tool Decathlon—
OSWorld-Verified—
免费商用
34
DeepSeek-V4-Flash
DeepSeek-AI
常规模式工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.049.10
Tool Decathlon—
OSWorld-Verified—
免费商用
35
M2.1
MiniMaxAI
开启思考工具
Aider-Polyglot61.00
τ²-Bench—
Terminal Bench 2.047.90
Tool Decathlon—
OSWorld-Verified—
免费商用
36
Composer 1.5
Cursor
开启思考
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.047.90
Tool Decathlon—
OSWorld-Verified—
闭源
37
GPT-5.1
OpenAI
思考水平 · 高工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.047.60
Tool Decathlon—
OSWorld-Verified—
闭源
38
Gemini 3.0 Flash
Google Deep Mind
开启思考工具
Aider-Polyglot—
τ²-Bench90.20
Terminal Bench 2.047.60
Tool Decathlon—
OSWorld-Verified—
闭源
39
DeepSeek V3.2
DeepSeek-AI
开启思考工具
Aider-Polyglot69.90
τ²-Bench80.30
Terminal Bench 2.046.40
Tool Decathlon—
OSWorld-Verified—
免费商用
40
GPT-5.4 nano
OpenAI
思考水平 · 极高工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.046.30
Tool Decathlon35.50
OSWorld-Verified39.00
闭源
41
Claude Sonnet 4.5
Anthropic
开启思考工具
Aider-Polyglot—
τ²-Bench84.70
Terminal Bench 2.042.80
Tool Decathlon—
OSWorld-Verified61.40
闭源
42
Qwen3.5-27B
阿里巴巴
开启思考工具
Aider-Polyglot—
τ²-Bench79.00
Terminal Bench 2.041.60
Tool Decathlon—
OSWorld-Verified56.20
免费商用
43
GLM-4.7
智谱AI
开启思考工具
Aider-Polyglot52.10
τ²-Bench87.40
Terminal Bench 2.041.00
Tool Decathlon—
OSWorld-Verified—
免费商用
44
Composer 1
Cursor
开启思考
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.040.00
Tool Decathlon—
OSWorld-Verified—
闭源
45
Qwen3-Coder-Next
阿里巴巴
常规模式工具
Aider-Polyglot66.20
τ²-Bench—
Terminal Bench 2.036.20
Tool Decathlon—
OSWorld-Verified—
免费商用
46
Gemini 2.5-Pro
Google Deep Mind
开启思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.032.60
Tool Decathlon—
OSWorld-Verified—
闭源
47
o3-pro
OpenAI
思考水平 · 高
Aider-Polyglot84.90
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
闭源
48
Gemini 2.5-Pro
Google Deep Mind
开启思考
Aider-Polyglot83.10
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
闭源
49
OpenAI o3
OpenAI
思考水平 · 高
Aider-Polyglot81.30
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
闭源
50
Grok 4
xAI
开启思考
Aider-Polyglot79.60
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
闭源
排序:
已显示 50 / 97 个模型查看 Terminal Bench 2.0 基准测试完整页面