Tool Decathlon
Tool Decathlon(简称 Toolathlon)是一个针对语言代理的基准测试框架,用于评估大模型在真实环境中使用工具执行复杂任务的能力。该基准涵盖32个软件应用和604个工具,包括日常工具如 Google Calendar 和 Notion,以及专业工具如 WooCommerce、Kubernetes 和 BigQuery。它包含108个任务,每个任务平均需要约20次工具交互。该框架于2025年10月发布,旨在填补现有评测在工具多样性和长序列执行方面的空白。通过执行式评估,该基准提供可靠的性能指
更新于 2026年4月25日·766 次浏览
- 问题数量
- 108
- 发布机构
- 个人
- 评测类别
- AI Agent - 工具使用
- 评测指标
- Accuracy
- 支持语言
- 英文
- 难度等级
- 高难度
简介
Tool Decathlon是一个用于评估大模型在真实环境中使用工具执行复杂任务的能力的评测基准
Tool Decathlon评测最新大模型排名与完整榜单数据
查看 Tool Decathlon 的最新得分、模型模式、发布时间与参数规模,快速了解当前完整榜单表现。
数据来源:DataLearnerAI
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
模型模式说明
Tool Decathlon 排名
| 排名 | 模型 | 开源情况 | |||
|---|---|---|---|---|---|
![]() Kimi K2.6 开启思考工具 | 50.00 | 2026-04-20 | 10000亿 | 免费商用 | |
![]() GPT-5.4 mini 思考水平 · 极高工具 | 42.90 | 2026-03-17 | 未知 | 闭源 | |
![]() GLM 5.1 开启思考工具 | 40.70 | 2026-03-27 | 754亿 | 免费商用 | |
4 | ![]() Qwen 3.6 Plus Preview 开启思考工具 | 39.80 | 2026-03-31 | 未知 | 闭源 |
5 | ![]() Qwen3.5-397B-A17B 开启思考工具 | 38.30 | 2026-02-16 | 397亿 | 免费商用 |
6 | ![]() GPT-5.4 nano 思考水平 · 极高工具 | 35.50 | 2026-03-17 | 未知 | 闭源 |
7 | ![]() Qwen3.6-35B-A3B 开启思考 | 26.90 | 2026-04-16 | 350亿 | 免费商用 |



