[论文解读] OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments
OSWORLD 引入了一个可扩展的真实计算机环境,用于多模态代理,以及一个包含 369 个真实世界任务的基准;人类绩效达到 72.36%,而最好的模型达到 12.24% 的成功率。
Autonomous agents that accomplish complex computer tasks with minimal human interventions have the potential to transform human-computer interaction, significantly enhancing accessibility and productivity. However, existing benchmarks either lack an interactive environment or are limited to environments specific to certain applications or domains, failing to reflect the diverse and complex nature of real-world computer use, thereby limiting the scope of tasks and agent scalability. To address this issue, we introduce OSWorld, the first-of-its-kind scalable, real computer environment for multimodal agents, supporting task setup, execution-based evaluation, and interactive learning across various operating systems such as Ubuntu, Windows, and macOS. OSWorld can serve as a unified, integrated computer environment for assessing open-ended computer tasks that involve arbitrary applications. Building upon OSWorld, we create a benchmark of 369 computer tasks involving real web and desktop apps in open domains, OS file I/O, and workflows spanning multiple applications. Each task example is derived from real-world computer use cases and includes a detailed initial state setup configuration and a custom execution-based evaluation script for reliable, reproducible evaluation. Extensive evaluation of state-of-the-art LLM/VLM-based agents on OSWorld reveals significant deficiencies in their ability to serve as computer assistants. While humans can accomplish over 72.36% of the tasks, the best model achieves only 12.24% success, primarily struggling with GUI grounding and operational knowledge. Comprehensive analysis using OSWorld provides valuable insights for developing multimodal generalist agents that were not possible with previous benchmarks. Our code, environment, baseline models, and data are publicly available at https://os-world.github.io.
研究动机与目标
- 激发建立一个真实、交互式基准平台的需求,该平台跨越多个操作系统和应用程序。
- 提供一个可扩展的可执行环境,支持任务设置、基于执行的评估以及交互式学习。
- 创建一个多样化的真实世界任务基准(在 Ubuntu 上有 369 个任务;在 Windows 上有 43 个任务),附带详细的初始状态和可执行的评估脚本。
- 评估当前最先进的 LLM/VLM 代理在开放式计算任务中的表现,以识别局限性和改进方向。
- 提供开源的 OSWORLD 资源,促进通用型多模态计算代理的开发。
提出的方法
- 将 OSWORLD 作为一个可执行的、基于虚拟机的环境引入,具备任务初始化、交互循环,以及执行为基础的奖励 R:S×A→[0,1]。
- 支持真实操作系统平台(Ubuntu、Windows、macOS)以及通过 pyautogui 的 GUI/CLI 交互,以实现通用的动作空间。
- 为每个任务标注初始状态和自定义评估脚本;使用 134 个逐例评估函数以实现可靠评估。
- 提供观测(屏幕截图、a11y 树)和动作(像素坐标、输入、热键)以建模 GUI-grounded 的决策过程。
- 基准使用 369 个 Ubuntu 任务和 43 个 Windows 任务,具备 302 个初始状态和 134 个评估脚本;包括不可行的任务和跨应用工作流。
实验结果
研究问题
- RQ1在跨越多操作系统的开放式真实计算任务上,当前的 LLM/VLM 代理与人类操作员之间的性能差距有多大?
- RQ2GUI 依据、应用知识以及跨应用工作流如何影响 OSWORLD 中代理的有效性?
- RQ3以多样化的初始状态和任务设置进行基于执行的评估,能否推动开发出更强大的多模态代理?
- RQ4在真实世界的 GUI/CLI 任务中,各基线(Mixtral、Llama-3、GPT-4、Gemini、Claude、Qwen-Max)的优点与局限性是什么?
- RQ5提供辅助信息(a11y 树、Set-of-Marks)如何影响代理的着陆与任务成功?
主要发现
- 在人类在 OSWORLD 任务上的成功率为 72.36%,而最佳模型达到 12.24%。
- 基线模型的成功率范围为 0.99% 到 12.24%,某些工作流子集为 0% 或非常低的性能(例如 6.57%)。
- 代理在精确 GUI 着陆和操作知识方面存在困难,可能会预测重复动作或在来自意外窗口的 GUI 噪声下失败。
- 更高分辨率的输入和更长的轨迹历史可以提高性能,但代价是上下文长度和建模效率。
- OSWORLD 通过实现带有 134 个独特评估函数以及跨应用任务的基于执行的评估,超过了先前的基准。
- OSWORLD 任务对人类而言更耗时(中位数时间 ~112s),相比仅网页基准,凸显了现实世界任务的复杂性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。