探索 OSWorld Verified:大模型AI Agent在真实计算机任务中的评估框架
OSWorld 是一个用于测试 AI 代理在真实计算机环境中的基准。这些代理是能处理文字、图片等信息的 AI 系统。基准包括开放式任务,比如操作文件或使用软件。OSWorld Verified 是它的改进版,通过修复问题和提升运行方式,提供更准确的测试结果。它支持不同操作系统,如 Ubuntu、Windows 和 macOS,并允许 AI 通过互动学习来完成任务。

现有基准的常见问题
许多现有的 AI 测试基准使用模拟环境,而不是真实的计算机。这导致测试结果无法反映实际使用情况。主要问题包括:
- 模拟环境不能处理任意软件或操作系统文件。
- 测试依赖人工检查,难以重复和自动化。
- 任务只限于特定类型,忽略了涉及多个软件的复杂工作流程。
