[論文レビュー] UI-TARS: Pioneering Automated GUI Interaction with Native Agents
UI-TARSは、スクリーンショットを通じてGUIを知覚し、System-1とSystem-2思考で推論し、オンラインの痕跡から反復的に学習して、フレームワークベースのモデルよりも複数のGUIベンチマークで優れる、エンドツーエンドのネイティブGUIエージェントを提供します。
This paper introduces UI-TARS, a native GUI agent model that solely perceives the screenshots as input and performs human-like interactions (e.g., keyboard and mouse operations). Unlike prevailing agent frameworks that depend on heavily wrapped commercial models (e.g., GPT-4o) with expert-crafted prompts and workflows, UI-TARS is an end-to-end model that outperforms these sophisticated frameworks. Experiments demonstrate its superior performance: UI-TARS achieves SOTA performance in 10+ GUI agent benchmarks evaluating perception, grounding, and GUI task execution. Notably, in the OSWorld benchmark, UI-TARS achieves scores of 24.6 with 50 steps and 22.7 with 15 steps, outperforming Claude (22.0 and 14.9 respectively). In AndroidWorld, UI-TARS achieves 46.6, surpassing GPT-4o (34.5). UI-TARS incorporates several key innovations: (1) Enhanced Perception: leveraging a large-scale dataset of GUI screenshots for context-aware understanding of UI elements and precise captioning; (2) Unified Action Modeling, which standardizes actions into a unified space across platforms and achieves precise grounding and interaction through large-scale action traces; (3) System-2 Reasoning, which incorporates deliberate reasoning into multi-step decision making, involving multiple reasoning patterns such as task decomposition, reflection thinking, milestone recognition, etc. (4) Iterative Training with Reflective Online Traces, which addresses the data bottleneck by automatically collecting, filtering, and reflectively refining new interaction traces on hundreds of virtual machines. Through iterative training and reflection tuning, UI-TARS continuously learns from its mistakes and adapts to unforeseen situations with minimal human intervention. We also analyze the evolution path of GUI agents to guide the further development of this domain.
研究の動機と目的
- ルールベースおよびフレームワークベースのGUIエージェントからネイティブなエンドツーエンドのGUIエージェントモデルへの移行を動機づける。
- ネイティブGUIエージェントのコア能力(知覚、行動、推論、記憶)を定義する。
- 知覚強化、統一アクション空間、System-2推論、オンライン学習を伴うスケーラブルな実装としてUI-TARSを提案する。
提案手法
- スクリーンショットを入力とし、 groundedなアクションを出力する純粋ビジョンのGUIエージェントを開発する。
- 要素の説明、密度付きキャプション、状態遷移キャプション、QA、セット・オブ・マーク promptingを含むタスクを備えた大規模なGUIスクリーンショットデータセットによる知覚の強化を実現する。
- プラットフォーム間でアクションを標準化する統一アクション空間を確立し、 grounding のための大規模なアクション痕跡データセットを構築する。
- 意思決定に故意な思考や多様な推論パターンを注入してSystem-2推論を組み込む。
- 反省的痕跡、フィルタリング、Direct Preference Optimization (DPO)を用いた反復的オンライン訓練を実施し、 hundredsの仮想マシンからの痕跡を洗練する。
実験結果
リサーチクエスチョン
- RQ1ネイティブでエンドツーエンドのGUIエージェントは、知覚、グ grounding、タスク実行のベンチマークでモジュール型フレームワークベースのエージェントを上回れるか。
- RQ2高度化されたGUI知覚、統一アクションモデリング、System-2推論は、デスクトップ・ウェブ・モバイルのGUI全般で性能向上に貢献するか。
- RQ3オンライン痕跡からの反省を伴う反復学習は、未知のインターフェースへの堅牢性と一般化を改善するか。
主な発見
- UI-TARSは知覚、 grounding、エージェント実行の10超のGUIエージェントベンチマークで最先端の性能を達成する。
- UI-TARS-72BはVisualWebBenchで82.8を記録し、GPT-4oの78.5を上回る。
- OSWorldではUI-TARS-72Bが24.6(50ステップ)および22.7(15ステップ)を記録し、Claudeの22.0および14.9をそれぞれ上回る。
- AndroidWorldではUI-TARSが46.6を記録し、GPT-4oの34.5を超える。
- 知覚とグ groundingはモバイル・デスクトップ・ウェブ環境全般で高精度を達成し、ScreenSpot Proでの38.1など具体的な例が挙げられる。
- 実験結果は72Bバリアントが多段階・動的タスクで優れており、System-2推論とオンライン改善設計を検証している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。