OSWorld-Verified:大模型“用电脑”能力的权威评测基准
随着大语言模型(LLM)和视觉语言模型(VLM)向Agent方向快速发展,“让AI像人类一样操作电脑”已成为前沿热点。2024年4月发布的OSWorld基准一经推出,便迅速成为评估多模态智能体在真实计算机环境中执行开放式任务的标杆。而2025年7月推出的OSWorld-Verified则是其重大升级版本,进一步提升了任务质量、可复现性和评估公平性,成为当前最权威的“计算机使用”评测基准。
什么是 OSWorld?
OSWorld(Open Source World)是首个真正基于真实操作系统环境的多模态Agent评测平台。它不同于传统的模拟环境(如MiniWoB或WebArena),而是直接在完整的Ubuntu、Windows和macOS系统中运行,让AI代理通过截图观察、鼠标键盘操作来完成任务。
核心特点包括:
