探索 OSWorld Verified：大模型AI Agent在真实计算机任务中的评估框架

OSWorld 是一个用于测试 AI 代理在真实计算机环境中的基准。这些代理是能处理文字、图片等信息的 AI 系统。基准包括开放式任务，比如操作文件或使用软件。OSWorld Verified 是它的改进版，通过修复问题和提升运行方式，提供更准确的测试结果。它支持不同操作系统，如 Ubuntu、Windows 和 macOS，并允许 AI 通过互动学习来完成任务。

现有基准的常见问题

许多现有的 AI 测试基准使用模拟环境，而不是真实的计算机。这导致测试结果无法反映实际使用情况。主要问题包括：

模拟环境不能处理任意软件或操作系统文件。
测试依赖人工检查，难以重复和自动化。
任务只限于特定类型，忽略了涉及多个软件的复杂工作流程。

这些问题使评估 AI 在日常计算机任务中的表现变得不准确。

基准的起源与目的

OSWorld 由香港大学、销售力量研究、卡内基梅隆大学和滑铁卢大学共同开发。初版于 2024 年发布，相关论文发表于 NeurIPS 2024 会议。OSWorld Verified 于 2025 年 7 月 28 日推出，添加了 AWS 云服务支持，以加快测试速度，并修复了社区报告的 300 多项问题。

这个基准的目的是解决现有测试的不足，帮助评估 AI 代理在真实计算机中的能力。具体包括：

创建一个可扩展的环境，支持多种操作系统。
使用自动脚本检查任务完成情况，减少人工参与。
设计开放式任务，考察 AI 的界面识别、操作技能和规划能力。

测试方法与运行步骤

OSWorld Verified 使用虚拟机来模拟计算机环境。AI 代理通过查看屏幕截图和界面结构树来理解情况，然后执行动作，如鼠标点击或键盘输入。测试结果由脚本自动检查，例如验证文件内容或软件状态。

基准共有 369 个任务（如果排除 8 个需要网络的 Google Drive 任务，则为 361 个）。任务分类如下：

任务类型	数量	示例
Chrome 浏览器	46	浏览网页、调整设置
GIMP 图像编辑	26	修改图片
LibreOffice Calc 表格	47	计算数据
LibreOffice Impress 演示	47	制作幻灯片
LibreOffice Writer 文档	23	编辑文字
多软件协作	93	结合多个程序完成工作
操作系统操作	23	管理文件、配置系统
Thunderbird 邮件	15	发送接收邮件
VLC 媒体播放	17	播放视频
VS Code 代码编辑	23	编写程序

运行步骤包括：

使用虚拟机快照和脚本设置任务起始状态。
AI 代理执行动作，最多 100 步。
脚本自动计算成功率。
支持本地运行或云端并行测试，通常在 1 小时内完成。

基准提供 134 个检查脚本，确保测试结果一致，并有工具供手动验证。

主流 AI 模型的表现与观察

根据 2026 年 2 月数据，部分模型在 OSWorld Verified 上的表现如下（成功率基于单次运行，最多 100 步）：

排名	模型名称	发布日期	成功率 (%)	类型
1	Claude Sonnet 4.6 (Anthropic)	2026-02-17	72.5	通用模型
2	Claude Opus 4.6 (Anthropic)	2026-02-17	72.7	通用模型
3	Kimi K2.5 (Moonshot AI)	2026-01-30	63.3	通用模型
4	GPT-5.3 Codex (OpenAI)	2025-12 (约)	64.7	专用模型

人类在相同任务上的成功率为 72.36%。AI 模型的表现已从早期版本的 12.24% 显著提高。

观察显示：

AI 在识别屏幕元素和操作软件时仍有困难，导致部分失败。
使用更高分辨率的截图能提高成功率 5-10%。
记录动作的文字历史比只用截图更有帮助。
AI 对界面布局变化敏感，但在不同操作系统间表现一致。

其他模型如 Seed-1.8 (ByteDance) 达到 61.9%，显示通用模型在多任务处理上的优势。

基准的价值与未来

OSWorld Verified 通过真实环境和自动检查，推动 AI 代理的进步。它揭示了 AI 在任务规划和执行中的弱点，并提供数据用于改进。未来可扩展到更多操作系统和任务，支持学习方法和安全研究。

现有基准的常见问题

基准的起源与目的

测试方法与运行步骤

主流 AI 模型的表现与观察

基准的价值与未来

DataLearner 官方微信