DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
返回总榜单

大模型 Agent 能力评测排行榜

本页面提供大模型 Agent 能力评测排行榜,涵盖 Aider-Polyglot、τ²-Bench、Terminal Bench 2.0、Tool Decathlon、OSWorld-Verified 等主流 Agent 评测基准,深度对比 GPT、Claude、Qwen、DeepSeek 等模型的工具使用、任务规划与自主执行能力。

数据更新于 2026-05-21 22:14:17

截至 2026年5月,本页覆盖 Aider-Polyglot, τ²-Bench, Terminal Bench 2.0, Tool Decathlon 等评测基准,聚焦 大模型 Agent 能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见 数据方法论。

基准评测
Agent能力评测Aider-Polyglotτ²-Bench
AI Agent - 工具使用Terminal Bench 2.0Tool DecathlonOSWorld-Verified
更多评测
参数规模:全部3B及以下7B13B34B65B100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型
开源:全部开源闭源
来源:全部国产模型
模型发布时间截止:

榜单亮点

按 Tool Decathlon 排序
当前 SOTA
阿里巴巴

Qwen3.5-397B-A17B

阿里巴巴

38.30Tool Decathlon
查看详情
最佳开源
阿里巴巴

Qwen3.6-35B-A3B

阿里巴巴

26.90Tool Decathlon−11.40
查看详情
最佳国产
阿里巴巴

Qwen3-32B

阿里巴巴

—Tool Decathlon
查看详情

大模型性能评测结果

数据来源:DataLearnerAI

点击任意行查看模型详情;勾选左侧 可对比最多 4 个模型。

排名模型
开源情况
阿里巴巴
Qwen3.5-397B-A17B
阿里巴巴
—86.7052.5038.3062.20免费商用详情详情
阿里巴巴
Qwen3.6-35B-A3B
阿里巴巴
——51.5026.90—免费商用详情详情
阿里巴巴
Qwen3-32B
阿里巴巴
40.00————免费商用详情详情
4
智谱AI
GLM-4.7-Flash
智谱AI
—79.50———免费商用详情详情
5
阿里巴巴
Qwen3.5-27B
阿里巴巴
—79.0041.60—56.20免费商用详情详情
6
阿里巴巴
Qwen3-30B-A3B-2507
阿里巴巴
—49.00———免费商用详情详情
7
OpenAI
GPT OSS 20B
OpenAI
—47.70———免费商用详情详情
8
阿里巴巴
Qwen3.6-27B
阿里巴巴
——59.30——免费商用详情详情
Qwen3.5-397B-A17B
阿里巴巴
Aider-Polyglot—
τ²-Bench86.70
Terminal Bench 2.052.50
Tool Decathlon38.30
OSWorld-Verified62.20
免费商用
Qwen3.6-35B-A3B
阿里巴巴
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.051.50
Tool Decathlon26.90
OSWorld-Verified—
免费商用
Qwen3-32B
阿里巴巴
Aider-Polyglot40.00
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
4
GLM-4.7-Flash
智谱AI
Aider-Polyglot—
τ²-Bench79.50
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
5
Qwen3.5-27B
阿里巴巴
Aider-Polyglot—
τ²-Bench79.00
Terminal Bench 2.041.60
Tool Decathlon—
OSWorld-Verified56.20
免费商用
6
Qwen3-30B-A3B-2507
阿里巴巴
Aider-Polyglot—
τ²-Bench49.00
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
7
GPT OSS 20B
OpenAI
Aider-Polyglot—
τ²-Bench47.70
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
8
Qwen3.6-27B
阿里巴巴
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.059.30
Tool Decathlon—
OSWorld-Verified—
免费商用
排序: