DataLearner logoDataLearnerAI
Latest AI Insights
Model Evaluations
Model Directory
Model Comparison
Resource Center
Tool Directory

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
Contents
Contents
  1. Home/
  2. Blog List/
  3. Blog Detail

探索 OSWorld Verified:大模型AI Agent在真实计算机任务中的评估框架

2026/02/18 16:21:59
14 views
OSWorldOSWorld-Verified大模型评测基准

OSWorld 是一个用于测试 AI 代理在真实计算机环境中的基准。这些代理是能处理文字、图片等信息的 AI 系统。基准包括开放式任务,比如操作文件或使用软件。OSWorld Verified 是它的改进版,通过修复问题和提升运行方式,提供更准确的测试结果。它支持不同操作系统,如 Ubuntu、Windows 和 macOS,并允许 AI 通过互动学习来完成任务。

现有基准的常见问题

许多现有的 AI 测试基准使用模拟环境,而不是真实的计算机。这导致测试结果无法反映实际使用情况。主要问题包括:

  • 模拟环境不能处理任意软件或操作系统文件。
  • 测试依赖人工检查,难以重复和自动化。
  • 任务只限于特定类型,忽略了涉及多个软件的复杂工作流程。

这些问题使评估 AI 在日常计算机任务中的表现变得不准确。

基准的起源与目的

OSWorld 由香港大学、销售力量研究、卡内基梅隆大学和滑铁卢大学共同开发。初版于 2024 年发布,相关论文发表于 NeurIPS 2024 会议。OSWorld Verified 于 2025 年 7 月 28 日推出,添加了 AWS 云服务支持,以加快测试速度,并修复了社区报告的 300 多项问题。

这个基准的目的是解决现有测试的不足,帮助评估 AI 代理在真实计算机中的能力。具体包括:

  • 创建一个可扩展的环境,支持多种操作系统。
  • 使用自动脚本检查任务完成情况,减少人工参与。
  • 设计开放式任务,考察 AI 的界面识别、操作技能和规划能力。

测试方法与运行步骤

OSWorld Verified 使用虚拟机来模拟计算机环境。AI 代理通过查看屏幕截图和界面结构树来理解情况,然后执行动作,如鼠标点击或键盘输入。测试结果由脚本自动检查,例如验证文件内容或软件状态。

基准共有 369 个任务(如果排除 8 个需要网络的 Google Drive 任务,则为 361 个)。任务分类如下:

任务类型数量示例
Chrome 浏览器46浏览网页、调整设置
GIMP 图像编辑26修改图片
LibreOffice Calc 表格47计算数据
LibreOffice Impress 演示47制作幻灯片
LibreOffice Writer 文档23编辑文字
多软件协作93结合多个程序完成工作
操作系统操作23管理文件、配置系统
Thunderbird 邮件15发送接收邮件
VLC 媒体播放17播放视频
VS Code 代码编辑23编写程序

运行步骤包括:

  1. 使用虚拟机快照和脚本设置任务起始状态。
  2. AI 代理执行动作,最多 100 步。
  3. 脚本自动计算成功率。
  4. 支持本地运行或云端并行测试,通常在 1 小时内完成。

基准提供 134 个检查脚本,确保测试结果一致,并有工具供手动验证。

主流 AI 模型的表现与观察

根据 2026 年 2 月数据,部分模型在 OSWorld Verified 上的表现如下(成功率基于单次运行,最多 100 步):

排名模型名称发布日期成功率 (%)类型
1Claude Sonnet 4.6 (Anthropic)2026-02-1772.5通用模型
2Claude Opus 4.6 (Anthropic)2026-02-1772.7通用模型
3Kimi K2.5 (Moonshot AI)2026-01-3063.3通用模型
4GPT-5.3 Codex (OpenAI)2025-12 (约)64.7专用模型

人类在相同任务上的成功率为 72.36%。AI 模型的表现已从早期版本的 12.24% 显著提高。

观察显示:

  • AI 在识别屏幕元素和操作软件时仍有困难,导致部分失败。
  • 使用更高分辨率的截图能提高成功率 5-10%。
  • 记录动作的文字历史比只用截图更有帮助。
  • AI 对界面布局变化敏感,但在不同操作系统间表现一致。

其他模型如 Seed-1.8 (ByteDance) 达到 61.9%,显示通用模型在多任务处理上的优势。

基准的价值与未来

OSWorld Verified 通过真实环境和自动检查,推动 AI 代理的进步。它揭示了 AI 在任务规划和执行中的弱点,并提供数据用于改进。未来可扩展到更多操作系统和任务,支持学习方法和安全研究。

DataLearner WeChat

Follow DataLearner WeChat for the latest AI updates

DataLearner 官方微信二维码
Back to Blog List

Related Blogs

  • OSWorld-Verified:大模型“用电脑”能力的权威评测基准
  • AA-LCR:大模型长上下文推理能力的权威评测基准(Artificial Analysis Long Context Reasoning)是什么?包含哪些任务?如何测试大模型超长上下文能力?
  • GDPval-AA:大模型在真实世界任务中的“经济价值”评测基准
  • MMEB:多模态嵌入基准评测,用于测试多模态向量检索和排序准确性的基准
  • Context Arena:长上下文大模型评测基准介绍
  • Tool Decathlon:大模型工具使用能力基准测试
  • Terminal-Bench 评测全解析:一个用于评测大模型在终端环境使用工具能力的评测基准以及Terminal 1.0与 2.0 的完整对比
  • IMO-Bench:谷歌发布的用于大模型数学推理的鲁棒评估基准

Hot Blogs

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署