DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
返回总榜单

大模型 Agent 能力评测排行榜

本页面提供大模型 Agent 能力评测排行榜,涵盖 Aider-Polyglot、τ²-Bench、Terminal Bench 2.0、Tool Decathlon、OSWorld-Verified 等主流 Agent 评测基准,深度对比 GPT、Claude、Qwen、DeepSeek 等模型的工具使用、任务规划与自主执行能力。

数据更新于 2026-04-28 13:02:03

截至 2026年4月,本页覆盖 Aider-Polyglot, τ²-Bench, Terminal Bench 2.0, Tool Decathlon 等评测基准,聚焦 大模型 Agent 能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见 数据方法论。

基准评测
Agent能力评测Aider-Polyglotτ²-Bench
AI Agent - 工具使用Terminal Bench 2.0Tool DecathlonOSWorld-Verified
更多评测
参数规模:全部3B及以下7B13B34B65B100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型
开源:全部开源闭源
来源:全部国产模型
模型发布时间截止:

大模型性能评测结果

数据来源:DataLearnerAI
排名模型开源情况
OpenAI
o3-pro
思考水平 · 高
OpenAI
84.90————闭源
Google Deep Mind
Gemini 2.5-Pro
开启思考
Google Deep Mind
83.10————闭源
OpenAI
OpenAI o3
思考水平 · 高
OpenAI
81.30————闭源
4
xAI
Grok 4
开启思考
xAI
79.60————闭源
5
DeepSeek-AI
DeepSeek-V3.1
开启思考
DeepSeek-AI
76.30————免费商用
6
DeepSeek-AI
DeepSeek-V3.1 Terminus
DeepSeek-AI
76.10————免费商用
7
DeepSeek-AI
DeepSeek V3.2-Exp
开启思考工具
DeepSeek-AI
74.5066.70———免费商用
8
OpenAI
OpenAI o4 - mini
思考水平 · 高
OpenAI
72.00————闭源
9
Anthropic
Claude Opus 4
开启思考
Anthropic
72.00————闭源
10
DeepSeek-AI
DeepSeek-R1-0528
开启思考
DeepSeek-AI
71.40————免费商用
11
Anthropic
Claude Opus 4
Anthropic
70.10————闭源
12
DeepSeek-AI
DeepSeek V3.2
开启思考工具
DeepSeek-AI
69.9080.3046.40——免费商用
13
DeepSeek-AI
DeepSeek-V3.1
DeepSeek-AI
68.40————免费商用
14
阿里巴巴
Qwen3-Coder-Next
常规模式工具
阿里巴巴
66.20—36.20——免费商用
15
Anthropic
Claude Sonnet 3.7
开启思考
Anthropic
64.90————闭源
16
Anthropic
Claude Sonnet 4
开启思考
Anthropic
61.30————闭源
17
MiniMaxAI
M2.1
开启思考工具
MiniMaxAI
61.00—47.90——免费商用
18
Anthropic
Claude Sonnet 3.7
Anthropic
60.40————闭源
19
Moonshot AI
Kimi K2
Moonshot AI
59.10————免费商用
20
Google Deep Mind
Gemini 2.5 Flash
开启思考
Google Deep Mind
56.70————闭源
21
DeepSeek-AI
DeepSeek-V3-0324
DeepSeek-AI
55.10————免费商用
22
智谱AI
GLM-4.7
开启思考工具
智谱AI
52.1087.4041.00——免费商用
23
Anthropic
Claude 3.5 Sonnet New
Anthropic
51.60————闭源
24
阿里巴巴
Qwen3-Next
阿里巴巴
49.80————免费商用
25
阿里巴巴
Qwen3-32B
开启思考
阿里巴巴
40.00————免费商用
26
OpenAI
GPT-4o(2025-03-27)
OpenAI
27.10————闭源
27
OpenAI
GPT-5.4 mini
思考水平 · 极高工具
OpenAI
——60.0042.9072.10闭源
28
阿里巴巴
Qwen 3.6 Plus Preview
开启思考工具
阿里巴巴
——61.6039.80—闭源
29
Cursor
Composer 2
开启思考
Cursor
——61.70——闭源
30
DeepSeek-AI
DeepSeek-V4-Pro
思考水平 · 高工具
DeepSeek-AI
——63.30——免费商用
31
智谱AI
GLM 5.1
开启思考工具
智谱AI
——63.5040.70—免费商用
32
阿里巴巴
Qwen3.6-Max-Preview
深度思考模式工具
阿里巴巴
——65.40——闭源
33
Moonshot AI
Kimi K2.6
开启思考工具
Moonshot AI
——66.7050.0073.10免费商用
34
DeepSeek-AI
DeepSeek-V4-Pro
思考水平 · 极高工具
DeepSeek-AI
——67.90——免费商用
35
Anthropic
Opus 4.7
扩展思考工具
Anthropic
——69.40—78.00闭源
36
OpenAI
GPT-5.4
思考水平 · 极高工具
OpenAI
——75.10—75.00闭源
37
OpenAI
GPT-5.3 Codex
开启思考工具
OpenAI
——77.30——闭源
38
Anthropic
Claude Mythos Preview
扩展思考工具
Anthropic
——82.00—79.60闭源
39
OpenAI
GPT-5.5
思考水平 · 高工具
OpenAI
——82.70—78.70闭源
40
Anthropic
Haiku 4.5
常规模式工具
Anthropic
—33.00———闭源
41
阿里巴巴
Qwen3-235B-A22B
开启思考工具
阿里巴巴
—34.40———免费商用
42
Anthropic
Claude Sonnet 4
开启思考工具
Anthropic
————42.20闭源
43
DeepSeek-AI
DeepSeek-V3.1 Terminus
开启思考工具
DeepSeek-AI
—37.00———免费商用
44
阿里巴巴
Qwen3.6-27B
开启思考工具
阿里巴巴
——59.30——免费商用
45
Anthropic
Claude Sonnet 4.6
开启思考工具
Anthropic
——59.10—72.50闭源
46
DeepSeek-AI
DeepSeek-V4-Pro
常规模式工具
DeepSeek-AI
——59.10——免费商用
47
Facebook AI研究实验室
Muse Spark
开启思考工具
Facebook AI研究实验室
——59.00——闭源
48
Google Deep Mind
Gemini 3.0 Pro (Preview 11-2025)
思考水平 · 高工具
Google Deep Mind
——56.90——闭源
49
DeepSeek-AI
DeepSeek-V4-Flash
思考水平 · 极高工具
DeepSeek-AI
——56.90——免费商用
50
DeepSeek-AI
DeepSeek-V4-Flash
思考水平 · 高工具
DeepSeek-AI
——56.60——免费商用
o3-pro
OpenAI
思考水平 · 高
Aider-Polyglot84.90
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
闭源
Gemini 2.5-Pro
Google Deep Mind
开启思考
Aider-Polyglot83.10
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
闭源
OpenAI o3
OpenAI
思考水平 · 高
Aider-Polyglot81.30
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
闭源
4
Grok 4
xAI
开启思考
Aider-Polyglot79.60
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
闭源
5
DeepSeek-V3.1
DeepSeek-AI
开启思考
Aider-Polyglot76.30
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
6
DeepSeek-V3.1 Terminus
DeepSeek-AI
Aider-Polyglot76.10
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
7
DeepSeek V3.2-Exp
DeepSeek-AI
开启思考工具
Aider-Polyglot74.50
τ²-Bench66.70
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
8
OpenAI o4 - mini
OpenAI
思考水平 · 高
Aider-Polyglot72.00
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
闭源
9
Claude Opus 4
Anthropic
开启思考
Aider-Polyglot72.00
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
闭源
10
DeepSeek-R1-0528
DeepSeek-AI
开启思考
Aider-Polyglot71.40
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
11
Claude Opus 4
Anthropic
Aider-Polyglot70.10
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
闭源
12
DeepSeek V3.2
DeepSeek-AI
开启思考工具
Aider-Polyglot69.90
τ²-Bench80.30
Terminal Bench 2.046.40
Tool Decathlon—
OSWorld-Verified—
免费商用
13
DeepSeek-V3.1
DeepSeek-AI
Aider-Polyglot68.40
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
14
Qwen3-Coder-Next
阿里巴巴
常规模式工具
Aider-Polyglot66.20
τ²-Bench—
Terminal Bench 2.036.20
Tool Decathlon—
OSWorld-Verified—
免费商用
15
Claude Sonnet 3.7
Anthropic
开启思考
Aider-Polyglot64.90
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
闭源
16
Claude Sonnet 4
Anthropic
开启思考
Aider-Polyglot61.30
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
闭源
17
M2.1
MiniMaxAI
开启思考工具
Aider-Polyglot61.00
τ²-Bench—
Terminal Bench 2.047.90
Tool Decathlon—
OSWorld-Verified—
免费商用
18
Claude Sonnet 3.7
Anthropic
Aider-Polyglot60.40
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
闭源
19
Kimi K2
Moonshot AI
Aider-Polyglot59.10
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
20
Gemini 2.5 Flash
Google Deep Mind
开启思考
Aider-Polyglot56.70
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
闭源
21
DeepSeek-V3-0324
DeepSeek-AI
Aider-Polyglot55.10
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
22
GLM-4.7
智谱AI
开启思考工具
Aider-Polyglot52.10
τ²-Bench87.40
Terminal Bench 2.041.00
Tool Decathlon—
OSWorld-Verified—
免费商用
23
Claude 3.5 Sonnet New
Anthropic
Aider-Polyglot51.60
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
闭源
24
Qwen3-Next
阿里巴巴
Aider-Polyglot49.80
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
25
Qwen3-32B
阿里巴巴
开启思考
Aider-Polyglot40.00
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
26
GPT-4o(2025-03-27)
OpenAI
Aider-Polyglot27.10
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
闭源
27
GPT-5.4 mini
OpenAI
思考水平 · 极高工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.060.00
Tool Decathlon42.90
OSWorld-Verified72.10
闭源
28
Qwen 3.6 Plus Preview
阿里巴巴
开启思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.061.60
Tool Decathlon39.80
OSWorld-Verified—
闭源
29
Composer 2
Cursor
开启思考
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.061.70
Tool Decathlon—
OSWorld-Verified—
闭源
30
DeepSeek-V4-Pro
DeepSeek-AI
思考水平 · 高工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.063.30
Tool Decathlon—
OSWorld-Verified—
免费商用
31
GLM 5.1
智谱AI
开启思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.063.50
Tool Decathlon40.70
OSWorld-Verified—
免费商用
32
Qwen3.6-Max-Preview
阿里巴巴
深度思考模式工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.065.40
Tool Decathlon—
OSWorld-Verified—
闭源
33
Kimi K2.6
Moonshot AI
开启思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.066.70
Tool Decathlon50.00
OSWorld-Verified73.10
免费商用
34
DeepSeek-V4-Pro
DeepSeek-AI
思考水平 · 极高工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.067.90
Tool Decathlon—
OSWorld-Verified—
免费商用
35
Opus 4.7
Anthropic
扩展思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.069.40
Tool Decathlon—
OSWorld-Verified78.00
闭源
36
GPT-5.4
OpenAI
思考水平 · 极高工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.075.10
Tool Decathlon—
OSWorld-Verified75.00
闭源
37
GPT-5.3 Codex
OpenAI
开启思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.077.30
Tool Decathlon—
OSWorld-Verified—
闭源
38
Claude Mythos Preview
Anthropic
扩展思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.082.00
Tool Decathlon—
OSWorld-Verified79.60
闭源
39
GPT-5.5
OpenAI
思考水平 · 高工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.082.70
Tool Decathlon—
OSWorld-Verified78.70
闭源
40
Haiku 4.5
Anthropic
常规模式工具
Aider-Polyglot—
τ²-Bench33.00
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
闭源
41
Qwen3-235B-A22B
阿里巴巴
开启思考工具
Aider-Polyglot—
τ²-Bench34.40
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
42
Claude Sonnet 4
Anthropic
开启思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified42.20
闭源
43
DeepSeek-V3.1 Terminus
DeepSeek-AI
开启思考工具
Aider-Polyglot—
τ²-Bench37.00
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
44
Qwen3.6-27B
阿里巴巴
开启思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.059.30
Tool Decathlon—
OSWorld-Verified—
免费商用
45
Claude Sonnet 4.6
Anthropic
开启思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.059.10
Tool Decathlon—
OSWorld-Verified72.50
闭源
46
DeepSeek-V4-Pro
DeepSeek-AI
常规模式工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.059.10
Tool Decathlon—
OSWorld-Verified—
免费商用
47
Muse Spark
Facebook AI研究实验室
开启思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.059.00
Tool Decathlon—
OSWorld-Verified—
闭源
48
Gemini 3.0 Pro (Preview 11-2025)
Google Deep Mind
思考水平 · 高工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.056.90
Tool Decathlon—
OSWorld-Verified—
闭源
49
DeepSeek-V4-Flash
DeepSeek-AI
思考水平 · 极高工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.056.90
Tool Decathlon—
OSWorld-Verified—
免费商用
50
DeepSeek-V4-Flash
DeepSeek-AI
思考水平 · 高工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.056.60
Tool Decathlon—
OSWorld-Verified—
免费商用
排序:
已显示 50 / 93 个模型查看 Aider-Polyglot 基准测试完整页面