OSWorld-Verified

Name: OS World Verified
Creator: 个人

OSWorld 是一个用于测试 AI 代理在真实计算机环境中的基准。这些代理是能处理文字、图片等信息的 AI 系统。基准包括开放式任务，比如操作文件或使用软件。OSWorld Verified 是它的改进版，通过修复问题和提升运行方式，提供更准确的测试结果。它支持不同操作系统，如 Ubuntu、Windows 和 macOS，并允许 AI 通过互动学习来完成任务。

更新于 2026年7月1日·1,314 次浏览

问题数量: 369
发布机构: 个人
评测类别: AI Agent - 工具使用
评测指标: Accuracy
支持语言: 英文
难度等级: 中等难度

简介

一个用于验证大模型Agent在操作计算机方面能力的评测基准，OSWorld的升级版本

OSWorld-Verified评测最新大模型排名与完整榜单数据

查看 OSWorld-Verified 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型模式说明

许可证:

来源:

模型发布时间截止:

排名	模型				开源情况
	Claude Fable 5 思考水平·高工具	85.00	2026-06-09	未知	闭源
	Claude Opus 4.8 扩展思考工具	83.40	2026-05-28	未知	闭源
	Claude Sonnet 5 思考水平·极高工具	81.20	2026-06-30	未知	闭源
4	Claude Mythos Preview 扩展思考工具	79.60	2026-04-07	未知	闭源
5	GPT-5.5 思考水平·高工具	78.70	2026-04-23	未知	闭源
6	Gemini 3.5 Flash 思考水平·高工具	78.40	2026-06-20	未知	闭源
7	Opus 4.7 扩展思考工具	78.00	2026-04-16	未知	闭源
8	GPT-5.4 思考水平·极高工具	75.00	2026-03-05	未知	闭源
9	Kimi K2.6 开启思考工具	73.10	2026-04-20	10000亿	免费商用
10	Claude Opus 4.6 扩展思考工具	72.70	2026-02-05	未知	闭源
11	Claude Sonnet 4.6 开启思考工具	72.50	2026-02-17	未知	闭源
12	GPT-5.4 mini 思考水平·极高工具	72.10	2026-03-17	未知	闭源
13	MiniMax M3 开启思考工具	70.00	2026-06-01	4280亿	非商用
14	Qwen3.5-397B-A17B 开启思考工具	62.20	2026-02-16	397亿	免费商用
15	Claude Sonnet 4.5 开启思考工具	61.40	2025-09-30	未知	闭源
16	Qwen3.5-27B 开启思考工具	56.20	2026-02-25	270亿	免费商用
17	Claude Sonnet 4 开启思考工具	42.20	2025-05-23	未知	闭源
18	GPT-5.4 nano 思考水平·极高工具	39.00	2026-03-17	未知	闭源
19	Claude Sonnet 3.7 开启思考工具	28.00	2025-02-25	未知	闭源

OSWorld-Verified评测最新大模型排名与完整榜单数据

OSWorld-Verified 排名