OSWorld-Verified:大模型“用电脑”能力的权威评测基准
随着大语言模型(LLM)和视觉语言模型(VLM)向Agent方向快速发展,“让AI像人类一样操作电脑”已成为前沿热点。2024年4月发布的OSWorld基准一经推出,便迅速成为评估多模态智能体在真实计算机环境中执行开放式任务的标杆。而2025年7月推出的OSWorld-Verified则是其重大升级版本,进一步提升了任务质量、可复现性和评估公平性,成为当前最权威的“计算机使用”评测基准。
什么是 OSWorld?
OSWorld(Open Source World)是首个真正基于真实操作系统环境的多模态Agent评测平台。它不同于传统的模拟环境(如MiniWoB或WebArena),而是直接在完整的Ubuntu、Windows和macOS系统中运行,让AI代理通过截图观察、鼠标键盘操作来完成任务。
核心特点包括:
- 真实环境:支持任意桌面/网页应用,无需预定义API。
- 开放式任务:369个真实世界任务,覆盖文件管理、网页浏览、办公软件、多应用协作等。
- 执行式评估:每个任务都有自定义的成功判定脚本,确保结果客观可复现。
- 跨平台支持:Ubuntu、Windows、macOS均可运行,支持并行与无头模式。
早期版本发布后,社区反馈了大量问题(如网页结构变化、指令歧义、评估函数不鲁棒等),这也促使团队推出Verified升级版。
OSWorld-Verified:更严谨、更高效的升级版
2025年7月28日,XLANG Lab正式发布OSWorld-Verified,这是对原版的一次“原地大修”:
- 修复300+问题:包括网页DOM变化、验证码、IP封禁、指令模糊、格式敏感等,引入模糊匹配、代理支持、备用站点等方案。
- 基础设施升级:从VMware/Docker转向AWS云平台,支持大规模并行(原先10+小时评估缩短至1小时内),VM镜像体积减半(50GB→25GB)。
- 评估更公平:设立官方AWS评估平台,只有通过官方运行并公开代码/轨迹的结果才能上Verified Leaderboard。
- 任务质量提升:成功判定更宽容(支持格式容错、模糊匹配),系统稳定性大幅提高。
这些改进让OSWorld-Verified成为真正“苹果对苹果”的比较平台,避免了不同机构因环境差异导致的结果不可比。
为什么 OSWorld-Verified 重要?
传统GUI基准往往任务简单、环境受限,而OSWorld-Verified的369个任务更接近真实工作场景:
- 需要视觉 grounding(准确识别界面元素)
- 需要长链条推理(多步操作、错误恢复)
- 需要工具调用与决策结合
人类在该基准上的成功率约为72.36%,早期(2024)最佳模型仅12%左右,暴露了大模型在真实电脑操作上的巨大差距。
但随着2025年模型迭代,进展迅猛:
- Verified发布初期,Agent框架(如CoACT-1)已达到60.76%。
- 到2025年底,有模型突破70%。
- 进入2026年,UiPath Screen Agent(基于Claude Opus 4.5)登顶榜首,其他开源方案(如美团EvoCUA)也在快速追赶。
这表明“大模型用电脑”能力正从“基本可用”向“接近人类”迈进,未来办公自动化、个人助理等场景将迎来爆发。
当前 Leaderboard 亮点(截至2026年初)
虽然榜单实时变化,但近期亮点包括:
- UiPath Screen Agent(Claude Opus 4.5驱动)排名第一,验证了企业级Agent框架实力。
- Qwen系列、Claude系列持续霸榜,显示闭源模型在视觉+推理上的优势。
- 开源模型快速崛起,部分7B-32B规模模型已在细分赛道(纯视觉、无外部轨迹)称霸。
想上Verified榜单?需要联系维护者预约AWS运行,并公开代码/轨迹,确保完全可复现。
结语
OSWorld-Verified不仅是评测基准,更是推动Agent实用化的关键基础设施。它让我们清晰看到:大模型离“真正会用电脑”还有多远,同时也激励着社区不断突破。
如果你正在开发计算机使用Agent,强烈建议在OSWorld-Verified上测试——它会毫不留情地暴露问题,也会给你最真实的进步反馈。
感兴趣的读者可以访问官网:https://os-world.github.io/
GitHub仓库:https://github.com/xlang-ai/OSWorld
未来,让我们拭目以待哪个模型率先超越人类72.36%的基准线!
