DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
返回总榜单

大模型 Agent 能力评测排行榜

本页面提供大模型 Agent 能力评测排行榜,涵盖 Aider-Polyglot、τ²-Bench、Terminal Bench 2.0、Tool Decathlon、OSWorld-Verified 等主流 Agent 评测基准,深度对比 GPT、Claude、Qwen、DeepSeek 等模型的工具使用、任务规划与自主执行能力。

数据更新于 2026-05-21 22:14:17

截至 2026年5月,本页覆盖 Aider-Polyglot, τ²-Bench, Terminal Bench 2.0, Tool Decathlon 等评测基准,聚焦 大模型 Agent 能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见 数据方法论。

基准评测
Agent能力评测Aider-Polyglotτ²-Bench
AI Agent - 工具使用Terminal Bench 2.0Tool DecathlonOSWorld-Verified
更多评测
参数规模:全部3B及以下7B13B34B65B100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型
开源:全部开源闭源
来源:全部国产模型
模型发布时间截止:

榜单亮点

按 Tool Decathlon 排序
当前 SOTA
Moonshot AI

Kimi K2.6

Moonshot AI

50.00Tool Decathlon
查看详情
最佳开源
DeepSeek-AI

DeepSeek-V3.1

DeepSeek-AI

—Tool Decathlon
查看详情
最佳国产
DeepSeek-AI

DeepSeek-V3.1 Terminus

DeepSeek-AI

—Tool Decathlon
查看详情

大模型性能评测结果

数据来源:DataLearnerAI

点击任意行查看模型详情;勾选左侧 可对比最多 4 个模型。

排名模型
开源情况
Moonshot AI
Kimi K2.6
Moonshot AI
——66.7050.0073.10免费商用详情详情
OpenAI
o3-pro
OpenAI
84.90————闭源详情详情
DeepSeek-AI
DeepSeek-V3.1
DeepSeek-AI
76.30————免费商用详情详情
4
DeepSeek-AI
DeepSeek-V3.1 Terminus
DeepSeek-AI
76.1037.00———免费商用详情详情
5
DeepSeek-AI
DeepSeek V3.2-Exp
DeepSeek-AI
74.5066.70———免费商用详情详情
6
OpenAI
OpenAI o4 - mini
OpenAI
72.0056.90———闭源详情详情
7
Anthropic
Claude Opus 4
Anthropic
72.0072.50———闭源详情详情
8
DeepSeek-AI
DeepSeek-R1-0528
DeepSeek-AI
71.40————免费商用详情详情
9
DeepSeek-AI
DeepSeek V3.2
DeepSeek-AI
69.9080.3046.40——免费商用详情详情
10
Anthropic
Claude Sonnet 3.7
Anthropic
64.9061.80——28.00闭源详情详情
11
MiniMaxAI
M2.1
MiniMaxAI
61.00—47.90——免费商用详情详情
12
Moonshot AI
Kimi K2
Moonshot AI
59.1064.30———免费商用详情详情
13
Google Deep Mind
Gemini 2.5 Flash
Google Deep Mind
56.70————闭源详情详情
14
DeepSeek-AI
DeepSeek-V3-0324
DeepSeek-AI
55.1038.80———免费商用详情详情
15
智谱AI
GLM-4.7
智谱AI
52.1087.4041.00——免费商用详情详情
16
Moonshot AI
Kimi K2.5
Moonshot AI
——50.80——免费商用详情详情
17
MiniMaxAI
MiniMax M2.5
MiniMaxAI
——51.70——免费商用详情详情
18
DeepSeek-AI
DeepSeek-V4-Flash
DeepSeek-AI
——56.90——免费商用详情详情
19
阿里巴巴
Qwen3.6-Max-Preview
阿里巴巴
——65.40——闭源详情详情
20
DeepSeek-AI
DeepSeek-V4-Pro
DeepSeek-AI
——67.90——免费商用详情详情
21
阿里巴巴
Qwen3.7-Max-Preview
阿里巴巴
——69.70——闭源详情详情
22
阿里巴巴
Qwen3-235B-A22B
阿里巴巴
—34.40———免费商用详情详情
23
OpenAI
GPT-4.1 mini
OpenAI
—53.00———闭源详情详情
24
OpenAI
GPT-4.1
OpenAI
—54.70———闭源详情详情
25
智谱AI
GLM-4.6
智谱AI
—75.90———免费商用详情详情
26
MiniMaxAI
MiniMax M2
MiniMaxAI
—77.20———免费商用详情详情
27
阿里巴巴
Qwen3-Max-Thinking
阿里巴巴
—82.10———闭源详情详情
28
StepFunAI
Step 3.5 Flash
StepFunAI
—88.2051.00——免费商用详情详情
29
智谱AI
GLM-5
智谱AI
—89.7061.10——免费商用详情详情
Kimi K2.6
Moonshot AI
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.066.70
Tool Decathlon50.00
OSWorld-Verified73.10
免费商用
o3-pro
OpenAI
Aider-Polyglot84.90
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
闭源
DeepSeek-V3.1
DeepSeek-AI
Aider-Polyglot76.30
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
4
DeepSeek-V3.1 Terminus
DeepSeek-AI
Aider-Polyglot76.10
τ²-Bench37.00
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
5
DeepSeek V3.2-Exp
DeepSeek-AI
Aider-Polyglot74.50
τ²-Bench66.70
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
6
OpenAI o4 - mini
OpenAI
Aider-Polyglot72.00
τ²-Bench56.90
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
闭源
7
Claude Opus 4
Anthropic
Aider-Polyglot72.00
τ²-Bench72.50
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
闭源
8
DeepSeek-R1-0528
DeepSeek-AI
Aider-Polyglot71.40
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
9
DeepSeek V3.2
DeepSeek-AI
Aider-Polyglot69.90
τ²-Bench80.30
Terminal Bench 2.046.40
Tool Decathlon—
OSWorld-Verified—
免费商用
10
Claude Sonnet 3.7
Anthropic
Aider-Polyglot64.90
τ²-Bench61.80
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified28.00
闭源
11
M2.1
MiniMaxAI
Aider-Polyglot61.00
τ²-Bench—
Terminal Bench 2.047.90
Tool Decathlon—
OSWorld-Verified—
免费商用
12
Kimi K2
Moonshot AI
Aider-Polyglot59.10
τ²-Bench64.30
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
13
Gemini 2.5 Flash
Google Deep Mind
Aider-Polyglot56.70
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
闭源
14
DeepSeek-V3-0324
DeepSeek-AI
Aider-Polyglot55.10
τ²-Bench38.80
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
15
GLM-4.7
智谱AI
Aider-Polyglot52.10
τ²-Bench87.40
Terminal Bench 2.041.00
Tool Decathlon—
OSWorld-Verified—
免费商用
16
Kimi K2.5
Moonshot AI
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.050.80
Tool Decathlon—
OSWorld-Verified—
免费商用
17
MiniMax M2.5
MiniMaxAI
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.051.70
Tool Decathlon—
OSWorld-Verified—
免费商用
18
DeepSeek-V4-Flash
DeepSeek-AI
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.056.90
Tool Decathlon—
OSWorld-Verified—
免费商用
19
Qwen3.6-Max-Preview
阿里巴巴
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.065.40
Tool Decathlon—
OSWorld-Verified—
闭源
20
DeepSeek-V4-Pro
DeepSeek-AI
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.067.90
Tool Decathlon—
OSWorld-Verified—
免费商用
21
Qwen3.7-Max-Preview
阿里巴巴
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.069.70
Tool Decathlon—
OSWorld-Verified—
闭源
22
Qwen3-235B-A22B
阿里巴巴
Aider-Polyglot—
τ²-Bench34.40
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
23
GPT-4.1 mini
OpenAI
Aider-Polyglot—
τ²-Bench53.00
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
闭源
24
GPT-4.1
OpenAI
Aider-Polyglot—
τ²-Bench54.70
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
闭源
25
GLM-4.6
智谱AI
Aider-Polyglot—
τ²-Bench75.90
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
26
MiniMax M2
MiniMaxAI
Aider-Polyglot—
τ²-Bench77.20
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
27
Qwen3-Max-Thinking
阿里巴巴
Aider-Polyglot—
τ²-Bench82.10
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
闭源
28
Step 3.5 Flash
StepFunAI
Aider-Polyglot—
τ²-Bench88.20
Terminal Bench 2.051.00
Tool Decathlon—
OSWorld-Verified—
免费商用
29
GLM-5
智谱AI
Aider-Polyglot—
τ²-Bench89.70
Terminal Bench 2.061.10
Tool Decathlon—
OSWorld-Verified—
免费商用
排序: