OSWorld-Verified

Updated Jul 9, 2026·1,405 views

Problem Count: 369
Institution: Independent
Category: AI Agent - Tool Use
Metrics: Accuracy
Language: English
Difficulty: Medium

Overview

A verified successor to OSWorld for evaluating the ability of language-model agents to operate computers in realistic environments.

Related resources

Latest OSWorld-Verified model rankings and full benchmark leaderboard

Browse the latest scores, model modes, release dates, and parameter sizes for OSWorld-Verified.

Source: DataLearnerAI

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Model Mode Legend

License:

Origin:

Model release cutoff:

Rank	Model				License
	Claude Fable 5 Thinking Level · HighTools	85.00	2026-06-09	Unknown	Closed
	Claude Opus 4.8 Extended ThinkingTools	83.40	2026-05-28	Unknown	Closed
	Claude Sonnet 5 Thinking Level · Extra HighTools	81.20	2026-06-30	Unknown	Closed
4	Muse Spark 1.1 Thinking EnabledTools	80.80	2026-07-09	Unknown	Closed
5	Claude Mythos Preview Extended ThinkingTools	79.60	2026-04-07	Unknown	Closed
6	GPT-5.5 Thinking Level · HighTools	78.70	2026-04-23	Unknown	Closed
7	Gemini 3.5 Flash Thinking Level · HighTools	78.40	2026-06-20	Unknown	Closed
8	Opus 4.7 Extended ThinkingTools	78.00	2026-04-16	Unknown	Closed
9	GPT-5.4 Thinking Level · Extra HighTools	75.00	2026-03-05	Unknown	Closed
10	Kimi K2.6 Thinking EnabledTools	73.10	2026-04-20	1000B	Free Commercial
11	Claude Opus 4.6 Extended ThinkingTools	72.70	2026-02-05	Unknown	Closed
12	Claude Sonnet 4.6 Thinking EnabledTools	72.50	2026-02-17	Unknown	Closed
13	GPT-5.4 mini Thinking Level · Extra HighTools	72.10	2026-03-17	Unknown	Closed
14	MiniMax M3 Thinking EnabledTools	70.00	2026-06-01	428B	Non-Commercial
15	Qwen3.5-397B-A17B Thinking EnabledTools	62.20	2026-02-16	39.7B	Free Commercial
16	Claude Sonnet 4.5 Thinking EnabledTools	61.40	2025-09-30	Unknown	Closed
17	Qwen3.5-27B Thinking EnabledTools	56.20	2026-02-25	27B	Free Commercial
18	Claude Sonnet 4 Thinking EnabledTools	42.20	2025-05-23	Unknown	Closed
19	GPT-5.4 nano Thinking Level · Extra HighTools	39.00	2026-03-17	Unknown	Closed
20	Claude Sonnet 3.7 Thinking EnabledTools	28.00	2025-02-25	Unknown	Closed

Latest OSWorld-Verified model rankings and full benchmark leaderboard

OSWorld-Verified Rank