DataLearner logoDataLearnerAI
AI Tech Blogs
Leaderboards
Benchmarks
Models
Resources
Tool Directory

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
Contents
Contents
  1. Home/
  2. Blog List/
  3. Blog Detail

OSWorld-Verified:大模型“用电脑”能力的权威评测基准

2026/02/06 08:38:21
18 views
OSWorld-Verified大模型评测基准

随着大语言模型(LLM)和视觉语言模型(VLM)向Agent方向快速发展,“让AI像人类一样操作电脑”已成为前沿热点。2024年4月发布的OSWorld基准一经推出,便迅速成为评估多模态智能体在真实计算机环境中执行开放式任务的标杆。而2025年7月推出的OSWorld-Verified则是其重大升级版本,进一步提升了任务质量、可复现性和评估公平性,成为当前最权威的“计算机使用”评测基准。

什么是 OSWorld?

OSWorld(Open Source World)是首个真正基于真实操作系统环境的多模态Agent评测平台。它不同于传统的模拟环境(如MiniWoB或WebArena),而是直接在完整的Ubuntu、Windows和macOS系统中运行,让AI代理通过截图观察、鼠标键盘操作来完成任务。

核心特点包括:

  • 真实环境:支持任意桌面/网页应用,无需预定义API。
  • 开放式任务:369个真实世界任务,覆盖文件管理、网页浏览、办公软件、多应用协作等。
  • 执行式评估:每个任务都有自定义的成功判定脚本,确保结果客观可复现。
  • 跨平台支持:Ubuntu、Windows、macOS均可运行,支持并行与无头模式。

早期版本发布后,社区反馈了大量问题(如网页结构变化、指令歧义、评估函数不鲁棒等),这也促使团队推出Verified升级版。

OSWorld-Verified:更严谨、更高效的升级版

2025年7月28日,XLANG Lab正式发布OSWorld-Verified,这是对原版的一次“原地大修”:

  • 修复300+问题:包括网页DOM变化、验证码、IP封禁、指令模糊、格式敏感等,引入模糊匹配、代理支持、备用站点等方案。
  • 基础设施升级:从VMware/Docker转向AWS云平台,支持大规模并行(原先10+小时评估缩短至1小时内),VM镜像体积减半(50GB→25GB)。
  • 评估更公平:设立官方AWS评估平台,只有通过官方运行并公开代码/轨迹的结果才能上Verified Leaderboard。
  • 任务质量提升:成功判定更宽容(支持格式容错、模糊匹配),系统稳定性大幅提高。

这些改进让OSWorld-Verified成为真正“苹果对苹果”的比较平台,避免了不同机构因环境差异导致的结果不可比。

为什么 OSWorld-Verified 重要?

传统GUI基准往往任务简单、环境受限,而OSWorld-Verified的369个任务更接近真实工作场景:

  • 需要视觉 grounding(准确识别界面元素)
  • 需要长链条推理(多步操作、错误恢复)
  • 需要工具调用与决策结合

人类在该基准上的成功率约为72.36%,早期(2024)最佳模型仅12%左右,暴露了大模型在真实电脑操作上的巨大差距。

但随着2025年模型迭代,进展迅猛:

  • Verified发布初期,Agent框架(如CoACT-1)已达到60.76%。
  • 到2025年底,有模型突破70%。
  • 进入2026年,UiPath Screen Agent(基于Claude Opus 4.5)登顶榜首,其他开源方案(如美团EvoCUA)也在快速追赶。

这表明“大模型用电脑”能力正从“基本可用”向“接近人类”迈进,未来办公自动化、个人助理等场景将迎来爆发。

当前 Leaderboard 亮点(截至2026年初)

虽然榜单实时变化,但近期亮点包括:

  • UiPath Screen Agent(Claude Opus 4.5驱动)排名第一,验证了企业级Agent框架实力。
  • Qwen系列、Claude系列持续霸榜,显示闭源模型在视觉+推理上的优势。
  • 开源模型快速崛起,部分7B-32B规模模型已在细分赛道(纯视觉、无外部轨迹)称霸。

想上Verified榜单?需要联系维护者预约AWS运行,并公开代码/轨迹,确保完全可复现。

结语

OSWorld-Verified不仅是评测基准,更是推动Agent实用化的关键基础设施。它让我们清晰看到:大模型离“真正会用电脑”还有多远,同时也激励着社区不断突破。

如果你正在开发计算机使用Agent,强烈建议在OSWorld-Verified上测试——它会毫不留情地暴露问题,也会给你最真实的进步反馈。

感兴趣的读者可以访问官网:https://os-world.github.io/
GitHub仓库:https://github.com/xlang-ai/OSWorld

未来,让我们拭目以待哪个模型率先超越人类72.36%的基准线!

DataLearner WeChat

Follow DataLearner WeChat for the latest AI updates

DataLearner 官方微信二维码
Back to Blog List

Related Blogs

  • GDPval-AA:大模型在真实世界任务中的“经济价值”评测基准
  • MMEB:多模态嵌入基准评测,用于测试多模态向量检索和排序准确性的基准
  • Context Arena:长上下文大模型评测基准介绍
  • Tool Decathlon:大模型工具使用能力基准测试
  • Terminal-Bench 评测全解析:一个用于评测大模型在终端环境使用工具能力的评测基准以及Terminal 1.0与 2.0 的完整对比
  • IMO-Bench:谷歌发布的用于大模型数学推理的鲁棒评估基准
  • LiveBench:一种抗污染的大型语言模型基准测试
  • BrowseComp:OpenAI发布的AI Agent网页浏览能力评估基准

Hot Blogs

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8H5文件简介和使用