[論文レビュー] Computer-Using World Model
CUWM はデスクトップ GUI に対して、まず行動によって引き起こされる UI 状態のテキスト説明を予測し、次に次の UI 状態を視覚的にレンダリングする二段階のワールドモデルを提案する。Office アプリのデータで訓練され、テスト時に行動の結果をシミュレーションして計画と頑健性を向上させる。
Agents operating in complex software environments benefit from reasoning about the consequences of their actions, as even a single incorrect user interface (UI) operation can derail long, artifact-preserving workflows. This challenge is particularly acute for computer-using scenarios, where real execution does not support counterfactual exploration, making large-scale trial-and-error learning and planning impractical despite the environment being fully digital and deterministic. We introduce the Computer-Using World Model (CUWM), a world model for desktop software that predicts the next UI state given the current state and a candidate action. CUWM adopts a two-stage factorization of UI dynamics: it first predicts a textual description of agent-relevant state changes, and then realizes these changes visually to synthesize the next screenshot. CUWM is trained on offline UI transitions collected from agents interacting with real Microsoft Office applications, and further refined with a lightweight reinforcement learning stage that aligns textual transition predictions with the structural requirements of computer-using environments. We evaluate CUWM via test-time action search, where a frozen agent uses the world model to simulate and compare candidate actions before execution. Across a range of Office tasks, world-model-guided test-time scaling improves decision quality and execution robustness.
研究の動機と目的
- 完全なデジタルデスクトップ GUI 環境におけるコンピューター使用エージェントの安全で計画駆動の意思決定を促進する。
- 構造化された UI ダイナミクスを捉えるワールドモデルを開発し、リアルな実験を伴わずに反事実推論をサポートする。
- 候補となる行動をシミュレーションし最良のものを選択することでテスト時の行動探索を可能にする。
- オフラインの Office アプリデータを活用してモデルを初期化・洗練し、軽量な RL で改善する。
- Word、Excel、PowerPoint で意思決定の質と頑健性の向上を実証する。)
提案手法
- UI ダイナミクスを二段階に分解する:テキスト状態遷移予測と視覚状態実現。
- ビジョン・言語モデル(Qwen2.5-VL)を用いて (st, at) から簡潔な遷移記述 Δt を予測する。
- 拡散系の画像エディタ(Qwen-Image-Edit)を用いて次の UI 状態 ŝt+1 を (st, Δt) からレンダリングする。
- GUI-360 軌跡から導出された GPT で注釈された遷移(st, at, st+1)を用いた教師あり学習で訓練する。
- 長さペナルティを伴う judge ベースの報酬を用いた軽量 RL でテキスト遷移を洗練させる。
- 凍結されたエージェント方策を用いた世界モデル指導型のテスト時行動探索で、想定結果を用いて候補行動を比較する。
実験結果
リサーチクエスチョン
- RQ1二段階の明示的な UI 遷移モデルは、デスクトップアプリの GUI ベースエージェントの計画を改善できるか?
- RQ2テキスト遷移予測と視覚的実現は、意思決定に関連する実行可能な UI 変更を忠実に捉えるか?
- RQ3UI のアウトカムをテスト時にシミュレーションすることで、Word・Excel・PowerPoint などの Office タスクにおけるエージェント性能を向上させるか?
主な発見
- テキスト状態遷移モデルは、Base → SFT → SFT+RL の LLM-as-a-Judge スコアで向上する: 0.6027 (Base) → 0.6834 (SFT) → 0.6883 (SFT+RL)。
- Action Consistency Score (ACS) は SFT+RL がエージェントのバックボーン間で最も高く、意思決定に関連する情報の保存性が向上する。
- テキスト遷移を用いた視覚状態実現は大きな改善を示し、CUWM はPSNR(14.91) と SSIM(0.67) を高く、LPIPS(0.21) を低く、FID(20.48) を低く達成する。
- テキスト知覚は CUWM で全体的に改善して 0.716、Word 0.742、Excel 0.707、PPT 0.689。
- 世界モデル指導型のテスト時行動探索は、バックボーン(例:GPT-4o、Qwen3-VL-8B)間でエージェントのタスクスコアを改善し、画像のみ入力がテキストのみまたは混合入力よりも優れる設定が多い。
- テキストと画像の予測を組み合わせると、一部の設定でエージェントの性能が低下する可能性があり、現在の多モーダル統合には課題があることを示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。