[論文レビュー] OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments
OSWORLD は、マルチモーダルエージェント向けのスケーラブルな実機環境と369の実世界タスクのベンチマークを導入する。人間の性能は72.36%、最良モデルは12.24%の成功率。
Autonomous agents that accomplish complex computer tasks with minimal human interventions have the potential to transform human-computer interaction, significantly enhancing accessibility and productivity. However, existing benchmarks either lack an interactive environment or are limited to environments specific to certain applications or domains, failing to reflect the diverse and complex nature of real-world computer use, thereby limiting the scope of tasks and agent scalability. To address this issue, we introduce OSWorld, the first-of-its-kind scalable, real computer environment for multimodal agents, supporting task setup, execution-based evaluation, and interactive learning across various operating systems such as Ubuntu, Windows, and macOS. OSWorld can serve as a unified, integrated computer environment for assessing open-ended computer tasks that involve arbitrary applications. Building upon OSWorld, we create a benchmark of 369 computer tasks involving real web and desktop apps in open domains, OS file I/O, and workflows spanning multiple applications. Each task example is derived from real-world computer use cases and includes a detailed initial state setup configuration and a custom execution-based evaluation script for reliable, reproducible evaluation. Extensive evaluation of state-of-the-art LLM/VLM-based agents on OSWorld reveals significant deficiencies in their ability to serve as computer assistants. While humans can accomplish over 72.36% of the tasks, the best model achieves only 12.24% success, primarily struggling with GUI grounding and operational knowledge. Comprehensive analysis using OSWorld provides valuable insights for developing multimodal generalist agents that were not possible with previous benchmarks. Our code, environment, baseline models, and data are publicly available at https://os-world.github.io.
研究の動機と目的
- 複数のOSとアプリケーションにまたがる実機の対話型ベンチマークプラットフォームの必要性を喚起する。
- タスクの設定、実行ベースの評価、対話的学習を可能にするスケーラブルな実行環境を提供する。
- 詳細な初期状態と実行可能な評価スクリプトを備えた、多様で現実世界のタスクベンチマークを作成する(Ubuntuで369タスク; Windowsで43タスク)。
- オープンエンドのコンピュータタスクにおける最新のLLM/VLMエージェントを評価し、限界と改善領域を特定する。
- 一般的なマルチモーダルコンピュータエージェントの開発を促進するために、OSWORLD のオープンソースリソースを提供する。
提案手法
- OSWORLD を、タスク初期化、対話ループ、実行ベースの報酬 R:S×A→[0,1] を備えた実行可能な VM ベース環境として導入する。
- 実OSプラットフォーム(Ubuntu、Windows、macOS)と pyautogui による GUI/CLI での対話をサポートし、普遍的なアクション空間を提供する。
- 各タスクに初期状態とカスタム評価スクリプトを注釈付きで付与する。信頼性の高い評価のために134個の例指向評価関数を使用する。
- 観察(スクリーンショット、a11y ツリー)とアクション(ピクセル座標、タイピング、ホットキー)を提供し、GUI に基づく意思決定をモデル化する。
- ベンチマークはUbuntuの369タスクとWindowsの43タスクを使用し、302 の初期状態と134の評価スクリプトを含む。実行不可能なタスクやアプリを跨ぐワークフローを含む。
実験結果
リサーチクエスチョン
- RQ1複数のOSに跨るオープンエンドな実機タスクにおいて、現在のLLM/VLMエージェントと人間オペレーターの性能ギャップはどれくらいか?
- RQ2GUIのグラウンディング、アプリケーション知識、クロスアプリのワークフローがOSWORLDにおけるエージェントの有効性にどう影響するか?
- RQ3多様な初期状態とタスク設定を備えた実行ベースの評価は、より有能なマルチモーダルエージェントの開発を促進できるか?
- RQ4実世界の GUI/CLI タスクに直面した場合、さまざまなベースライン(Mixtral、Llama-3、GPT-4、Gemini、Claude、Qwen-Max)の長所と限界は何か?
- RQ5補助情報(a11y tree、Set-of-Marks)を提供することがエージェントのグラウンディングとタスク成功にどのように影響するか?
主な発見
- 人間は OSWORLD のタスクで 72.36% の成功を達成し、最良のモデルは 12.24% に達する。
- ベースラインモデルの成功率は 0.99% から 12.24% の範囲で、いくつかのワークフローのサブセットは 0% または非常に低い性能(例: 6.57%)を示す。
- エージェントは正確な GUI グラウンディングと運用知識に苦戦し、繰り返しのアクションを予測したり、予期せぬウィンドウからの GUI ノイズで失敗することがある。
- 高解像度の入力と長い軌跡履歴は性能を改善できるが、文脈長とモデリング効率のコストが伴う。
- OSWORLD は134個のユニークな評価関数とアプリ跨ぎのタスクによる実行ベースの評価を可能にすることで、従来のベンチマークを上回っている。
- OSWORLD のタスクは人間にとってウェブのみのベンチマークよりも時間がかかる(中央値約112秒)、現実世界のタスクの複雑さを強調している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。