Tool Decathlon

Updated Jul 9, 2026·1,186 views

Problem Count: 108
Institution: Independent
Category: AI Agent - Tool Use
Metrics: Accuracy
Language: English
Difficulty: Mixed

Overview

A benchmark that evaluates whether language models can use tools to complete complex tasks in realistic environments.

Related resources

Latest Tool Decathlon model rankings and full benchmark leaderboard

Browse the latest scores, model modes, release dates, and parameter sizes for Tool Decathlon.

Source: DataLearnerAI

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Model Mode Legend

License:

Origin:

Model release cutoff:

Rank	Model				License
	Muse Spark 1.1 Thinking EnabledTools	75.60	2026-07-09	Unknown	Closed
	Kimi K2.6 Thinking EnabledTools	50.00	2026-04-20	1000B	Free Commercial
	Hy3 Thinking Level · HighTools	48.50	2026-07-06	295B	Free Commercial
4	GPT-5.4 mini Thinking Level · Extra HighTools	42.90	2026-03-17	Unknown	Closed
5	GLM 5.1 Thinking EnabledTools	40.70	2026-03-27	75.4B	Free Commercial
6	Qwen 3.6 Plus Preview Thinking EnabledTools	39.80	2026-03-31	Unknown	Closed
7	Qwen3.5-397B-A17B Thinking EnabledTools	38.30	2026-02-16	39.7B	Free Commercial
8	GPT-5.4 nano Thinking Level · Extra HighTools	35.50	2026-03-17	Unknown	Closed
9	Qwen3.6-35B-A3B Thinking Enabled	26.90	2026-04-16	35B	Free Commercial

Latest Tool Decathlon model rankings and full benchmark leaderboard

Tool Decathlon Rank