Tool Decathlon：大模型工具使用能力基准测试

Tool Decathlon（简称 Toolathlon）是一个针对语言代理的基准测试框架，用于评估大模型在真实环境中使用工具执行复杂任务的能力。该基准涵盖32个软件应用和604个工具，包括日常工具如 Google Calendar 和 Notion，以及专业工具如 WooCommerce、Kubernetes 和 BigQuery。它包含108个任务，每个任务平均需要约20次工具交互。该框架于2025年10月发布，旨在填补现有评测在工具多样性和长序列执行方面的空白。通过执行式评估，该基准提供可靠的性能指标，推动语言代理向实际应用场景发展。

当前大模型工具使用评测的局限

现有大模型工具使用评测主要集中在单一工具或简单交互上，无法模拟真实工作流中的多工具协作和长时序决策。例如，许多基准仅测试工具调用准确性，而忽略环境设置的复杂性和任务的可验证性。这导致模型在实验室环境中表现良好，但在实际部署时失败率高。另一个问题是工具描述的标准化不足，模型难以处理专业领域工具的细微差异。此外，缺乏大规模、多样化任务集，使得评测结果难以泛化到企业级应用，如数据管理和集群部署。

Tool Decathlon 的背景与目标

Tool Decathlon 由香港科技大学自然语言处理组（HKUST-NLP）主导开发，核心作者包括 Junlong Li 等21位研究者。该基准于2025年10月29日以 arXiv 预印本形式发布（论文编号 2510.25726），并通过 GitHub 开源（仓库 hkust-nlp/Toolathlon）。开发团队基于 Model Context Protocol (MCP) 服务器构建工具集，其中多数工具经过修改或自行实现，以确保兼容性和真实性。

该基准针对的核心问题是现有语言代理在长时序、多工具任务中的低效执行。传统评测往往局限于短对话或静态问题，无法捕捉真实场景下的动态交互，如跨应用数据流动和错误恢复。Tool Decathlon 旨在解决这一问题，通过提供多样化工具和可控环境，测试模型在高价值生产力场景中的泛化能力，例如企业数据管理或软件运维。

基准的设计与执行流程

Tool Decathlon 的核心在于其多层设计：工具层、任务层和评估层。工具层包括604个 API 接口，覆盖从个人生产力到企业级应用的32个软件平台。任务设计强调长时序执行，每个任务需模型自主规划路径、调用工具并验证输出。

主要任务与数量 基准包含108个手动构建或采集的任务，分为日常和专业两类。以下是部分示例：

任务类别	示例任务	涉及工具	平均交互次数
日常生产力	分析 NVIDIA 机构持股趋势，调整股票拆分后数据，填充 Excel 模板	Google Sheets, Notion	15-25
专业运维	配置 Kubernetes 集群，部署 WooCommerce 商店	Kubernetes, BigQuery	20-30
数据管理	查询 Snowflake 数据库，生成报告	Snowflake, Google Maps	18-22

每个任务从自然语言描述开始，模型需生成工具调用序列，直至完成目标。流程如下：

环境初始化：使用 MCP 服务器模拟真实 API 响应，确保无外部依赖。
代理执行：模型接收任务提示，输出工具调用（包括参数和顺序），系统执行并返回观察结果。循环迭代，直至任务结束或超时（最大100轮）。
评估方法：采用严格的执行式验证，每个任务配备专用脚本检查最终状态（如文件生成、数据库更新）。成功率基于任务完成度计算，辅以辅助指标如工具调用轮数和错误率。评估不依赖人工标注，确保可重复性。

该设计支持零样本或少样本设置，允许研究者自定义代理框架。

主流大模型在 Tool Decathlon 上的表现

基准对多项状态艺术（SOTA）模型进行了全面测试，结果显示模型在复杂工具交互中的整体能力有限。以下表格总结部分主流模型的性能（基于论文报告数据）：

模型名称	类型	成功率 (%)	平均工具调用轮数	备注
Claude-4.5-Sonnet	闭源	38.6	20.2	最佳闭源模型，在专业任务中表现稳定，但长序列规划易出错
GPT-4o	闭源	32.1	22.5	在数据管理任务中得分较高，但工具参数错误率达15%
Gemini 2.0 Pro	闭源	28.4	19.8	日常工具使用流畅，专业应用泛化弱
DeepSeek-V3.2-Exp	开源	20.1	25.3	顶级开源模型，资源消耗低，但成功率受限于上下文长度
Llama-3.1-405B	开源	18.7	23.1	在多应用协作中调用效率低，平均超时率12%

分析显示，闭源模型整体领先，但成功率均未超过40%，反映出规划和恢复机制的不足。开源模型在工具调用准确性上接近闭源，但长时序任务中观察利用率低（平均仅70%）。专业任务（如 Kubernetes 配置）拉大差距，成功率比日常任务低20%。这些结果表明，当前模型需加强多步推理和错误处理能力。

Tool Decathlon 的启示与展望

Tool Decathlon 揭示了大模型工具使用能力的瓶颈，同时为未来发展提供清晰路径。该基准强调真实环境的重要性，推动研究从单一工具向生态系统评估转型。通过开源工具和任务集，它便于社区扩展和复现。展望未来，该框架可集成更多领域工具，如金融 API 或医疗系统，进一步测试泛化边界。总体而言，Tool Decathlon 标志着语言代理评测向实用化迈进，有助于构建更可靠的 AI 助手。研究者可访问 toolathlon.xyz 或 GitHub 仓库获取完整资源，继续贡献评估数据。

当前大模型工具使用评测的局限

Tool Decathlon 的背景与目标

基准的设计与执行流程

主流大模型在 Tool Decathlon 上的表现

Tool Decathlon 的启示与展望

DataLearner WeChat