DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
返回总榜单

大模型 Agent 能力评测排行榜

本页面提供大模型 Agent 能力评测排行榜,涵盖 Aider-Polyglot、τ²-Bench、Terminal Bench 2.0、Tool Decathlon、OSWorld-Verified 等主流 Agent 评测基准,深度对比 GPT、Claude、Qwen、DeepSeek 等模型的工具使用、任务规划与自主执行能力。

数据更新于 2026-05-21 22:14:17

截至 2026年5月,本页覆盖 Aider-Polyglot, τ²-Bench, Terminal Bench 2.0, Tool Decathlon 等评测基准,聚焦 大模型 Agent 能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见 数据方法论。

基准评测
Agent能力评测Aider-Polyglotτ²-Bench
AI Agent - 工具使用Terminal Bench 2.0Tool DecathlonOSWorld-Verified
更多评测
参数规模:全部3B及以下7B13B34B65B100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型
开源:全部开源闭源
来源:全部国产模型
模型发布时间截止:

榜单亮点

按 OSWorld-Verified 排序
当前 SOTA
Moonshot AI

Kimi K2.6

Moonshot AI

73.10OSWorld-Verified
查看详情
最佳开源
DeepSeek-AI

DeepSeek-V3.1

DeepSeek-AI

—OSWorld-Verified
查看详情
最佳国产
DeepSeek-AI

DeepSeek-V3.1 Terminus

DeepSeek-AI

—OSWorld-Verified
查看详情

大模型性能评测结果

数据来源:DataLearnerAI

点击任意行查看模型详情;勾选左侧 可对比最多 4 个模型。

排名模型
开源情况
Moonshot AI
Kimi K2.6
Moonshot AI
——66.7050.0073.10免费商用详情详情
Anthropic
Claude Sonnet 3.7
Anthropic
64.9061.80——28.00闭源详情详情
OpenAI
o3-pro
OpenAI
84.90————闭源详情详情
4
DeepSeek-AI
DeepSeek-V3.1
DeepSeek-AI
76.30————免费商用详情详情
5
DeepSeek-AI
DeepSeek-V3.1 Terminus
DeepSeek-AI
76.1037.00———免费商用详情详情
6
DeepSeek-AI
DeepSeek V3.2-Exp
DeepSeek-AI
74.5066.70———免费商用详情详情
7
OpenAI
OpenAI o4 - mini
OpenAI
72.0056.90———闭源详情详情
8
Anthropic
Claude Opus 4
Anthropic
72.0072.50———闭源详情详情
9
DeepSeek-AI
DeepSeek-R1-0528
DeepSeek-AI
71.40————免费商用详情详情
10
DeepSeek-AI
DeepSeek V3.2
DeepSeek-AI
69.9080.3046.40——免费商用详情详情
11
MiniMaxAI
M2.1
MiniMaxAI
61.00—47.90——免费商用详情详情
12
Moonshot AI
Kimi K2
Moonshot AI
59.1064.30———免费商用详情详情
13
Google Deep Mind
Gemini 2.5 Flash
Google Deep Mind
56.70————闭源详情详情
14
DeepSeek-AI
DeepSeek-V3-0324
DeepSeek-AI
55.1038.80———免费商用详情详情
15
智谱AI
GLM-4.7
智谱AI
52.1087.4041.00——免费商用详情详情
16
Moonshot AI
Kimi K2.5
Moonshot AI
——50.80——免费商用详情详情
17
MiniMaxAI
MiniMax M2.5
MiniMaxAI
——51.70——免费商用详情详情
18
DeepSeek-AI
DeepSeek-V4-Flash
DeepSeek-AI
——56.90——免费商用详情详情
19
阿里巴巴
Qwen3.6-Max-Preview
阿里巴巴
——65.40——闭源详情详情
20
DeepSeek-AI
DeepSeek-V4-Pro
DeepSeek-AI
——67.90——免费商用详情详情
21
阿里巴巴
Qwen3.7-Max-Preview
阿里巴巴
——69.70——闭源详情详情
22
阿里巴巴
Qwen3-235B-A22B
阿里巴巴
—34.40———免费商用详情详情
23
OpenAI
GPT-4.1 mini
OpenAI
—53.00———闭源详情详情
24
OpenAI
GPT-4.1
OpenAI
—54.70———闭源详情详情
25
智谱AI
GLM-4.6
智谱AI
—75.90———免费商用详情详情
26
MiniMaxAI
MiniMax M2
MiniMaxAI
—77.20———免费商用详情详情
27
阿里巴巴
Qwen3-Max-Thinking
阿里巴巴
—82.10———闭源详情详情
28
StepFunAI
Step 3.5 Flash
StepFunAI
—88.2051.00——免费商用详情详情
29
智谱AI
GLM-5
智谱AI
—89.7061.10——免费商用详情详情
Kimi K2.6
Moonshot AI
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.066.70
Tool Decathlon50.00
OSWorld-Verified73.10
免费商用
Claude Sonnet 3.7
Anthropic
Aider-Polyglot64.90
τ²-Bench61.80
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified28.00
闭源
o3-pro
OpenAI
Aider-Polyglot84.90
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
闭源
4
DeepSeek-V3.1
DeepSeek-AI
Aider-Polyglot76.30
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
5
DeepSeek-V3.1 Terminus
DeepSeek-AI
Aider-Polyglot76.10
τ²-Bench37.00
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
6
DeepSeek V3.2-Exp
DeepSeek-AI
Aider-Polyglot74.50
τ²-Bench66.70
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
7
OpenAI o4 - mini
OpenAI
Aider-Polyglot72.00
τ²-Bench56.90
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
闭源
8
Claude Opus 4
Anthropic
Aider-Polyglot72.00
τ²-Bench72.50
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
闭源
9
DeepSeek-R1-0528
DeepSeek-AI
Aider-Polyglot71.40
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
10
DeepSeek V3.2
DeepSeek-AI
Aider-Polyglot69.90
τ²-Bench80.30
Terminal Bench 2.046.40
Tool Decathlon—
OSWorld-Verified—
免费商用
11
M2.1
MiniMaxAI
Aider-Polyglot61.00
τ²-Bench—
Terminal Bench 2.047.90
Tool Decathlon—
OSWorld-Verified—
免费商用
12
Kimi K2
Moonshot AI
Aider-Polyglot59.10
τ²-Bench64.30
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
13
Gemini 2.5 Flash
Google Deep Mind
Aider-Polyglot56.70
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
闭源
14
DeepSeek-V3-0324
DeepSeek-AI
Aider-Polyglot55.10
τ²-Bench38.80
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
15
GLM-4.7
智谱AI
Aider-Polyglot52.10
τ²-Bench87.40
Terminal Bench 2.041.00
Tool Decathlon—
OSWorld-Verified—
免费商用
16
Kimi K2.5
Moonshot AI
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.050.80
Tool Decathlon—
OSWorld-Verified—
免费商用
17
MiniMax M2.5
MiniMaxAI
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.051.70
Tool Decathlon—
OSWorld-Verified—
免费商用
18
DeepSeek-V4-Flash
DeepSeek-AI
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.056.90
Tool Decathlon—
OSWorld-Verified—
免费商用
19
Qwen3.6-Max-Preview
阿里巴巴
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.065.40
Tool Decathlon—
OSWorld-Verified—
闭源
20
DeepSeek-V4-Pro
DeepSeek-AI
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.067.90
Tool Decathlon—
OSWorld-Verified—
免费商用
21
Qwen3.7-Max-Preview
阿里巴巴
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.069.70
Tool Decathlon—
OSWorld-Verified—
闭源
22
Qwen3-235B-A22B
阿里巴巴
Aider-Polyglot—
τ²-Bench34.40
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
23
GPT-4.1 mini
OpenAI
Aider-Polyglot—
τ²-Bench53.00
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
闭源
24
GPT-4.1
OpenAI
Aider-Polyglot—
τ²-Bench54.70
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
闭源
25
GLM-4.6
智谱AI
Aider-Polyglot—
τ²-Bench75.90
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
26
MiniMax M2
MiniMaxAI
Aider-Polyglot—
τ²-Bench77.20
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
27
Qwen3-Max-Thinking
阿里巴巴
Aider-Polyglot—
τ²-Bench82.10
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
闭源
28
Step 3.5 Flash
StepFunAI
Aider-Polyglot—
τ²-Bench88.20
Terminal Bench 2.051.00
Tool Decathlon—
OSWorld-Verified—
免费商用
29
GLM-5
智谱AI
Aider-Polyglot—
τ²-Bench89.70
Terminal Bench 2.061.10
Tool Decathlon—
OSWorld-Verified—
免费商用
排序: