Tool Decathlon:大模型工具使用能力基准测试
Tool Decathlon(简称 Toolathlon)是一个针对语言代理的基准测试框架,用于评估大模型在真实环境中使用工具执行复杂任务的能力。该基准涵盖32个软件应用和604个工具,包括日常工具如 Google Calendar 和 Notion,以及专业工具如 WooCommerce、Kubernetes 和 BigQuery。它包含108个任务,每个任务平均需要约20次工具交互。该框架于2025年10月发布,旨在填补现有评测在工具多样性和长序列执行方面的空白。通过执行式评估,该基准提供可靠的性能指标,推动语言代理向实际应用场景发展。
当前大模型工具使用评测的局限
现有大模型工具使用评测主要集中在单一工具或简单交互上,无法模拟真实工作流中的多工具协作和长时序决策。例如,许多基准仅测试工具调用准确性,而忽略环境设置的复杂性和任务的可验证性。这导致模型在实验室环境中表现良好,但在实际部署时失败率高。另一个问题是工具描述的标准化不足,模型难以处理专业领域工具的细微差异。此外,缺乏大规模、多样化任务集,使得评测结果难以泛化到企业级应用,如数据管理和集群部署。
Tool Decathlon 的背景与目标
Tool Decathlon 由香港科技大学自然语言处理组(HKUST-NLP)主导开发,核心作者包括 Junlong Li 等21位研究者。该基准于2025年10月29日以 arXiv 预印本形式发布(论文编号 2510.25726),并通过 GitHub 开源(仓库 hkust-nlp/Toolathlon)。开发团队基于 Model Context Protocol (MCP) 服务器构建工具集,其中多数工具经过修改或自行实现,以确保兼容性和真实性。
该基准针对的核心问题是现有语言代理在长时序、多工具任务中的低效执行。传统评测往往局限于短对话或静态问题,无法捕捉真实场景下的动态交互,如跨应用数据流动和错误恢复。Tool Decathlon 旨在解决这一问题,通过提供多样化工具和可控环境,测试模型在高价值生产力场景中的泛化能力,例如企业数据管理或软件运维。
