[論文レビュー] TreeCUA: Efficiently Scaling GUI Automation with Tree-Structured Verifiable Evolution
TreeCUA は、GUI 自動化と軌道計画をスケールさせるための木構造化・検証可能なデータ合成フレームワークを、複数エージェント構成とともに導入し、枝情報を活用した計画を改善する TreeCUA-DPO を提案します。
Effectively scaling GUI automation is essential for computer-use agents (CUAs); however, existing work primarily focuses on scaling GUI grounding rather than the more crucial GUI planning, which requires more sophisticated data collection. In reality, the exploration process of a CUA across apps/desktops/web pages typically follows a tree structure, with earlier functional entry points often being explored more frequently. Thus, organizing large-scale trajectories into tree structures can reduce data cost and streamline the data scaling of GUI planning. In this work, we propose TreeCUA to efficiently scale GUI automation with tree-structured verifiable evolution. We propose a multi-agent collaborative framework to explore the environment, verify actions, summarize trajectories, and evaluate quality to generate high-quality and scalable GUI trajectories. To improve efficiency, we devise a novel tree-based topology to store and replay duplicate exploration nodes, and design an adaptive exploration algorithm to balance the depth (\emph{i.e.}, trajectory difficulty) and breadth (\emph{i.e.}, trajectory diversity). Moreover, we develop world knowledge guidance and global memory backtracking to avoid low-quality generation. Finally, we naturally extend and propose the TreeCUA-DPO method from abundant tree node information, improving GUI planning capability by referring to the branch information of adjacent trajectories. Experimental results show that TreeCUA and TreeCUA-DPO offer significant improvements, and out-of-domain (OOD) studies further demonstrate strong generalization. All trajectory node information and code will be available at https://github.com/UITron-hub/TreeCUA.
研究の動機と目的
- 静的 GUI 基づけを超える長期的な GUI 軌道合成のスケーラビリティの必要性を動機付ける。
- ステップの冗長性を削減し軌道の多様性を増やすための木構造化データ合成フレームワークを開発する。
- 世界知識のガイダンスとグローバルメモリを用いた探索・検証・要約・評価パイプラインを提案する。
- 決定論的リプレイと非同期並行実行を通じた探索ノードの効率的リプレイを実現する。
- 隣接軌道を参照してブランチ情報を活用し、計画を改善する TreeCUA-DPO を導入する。
提案手法
- ノードが状態、エッジがアクションである木として探索を定義する;世界知識初期化を用いて多様で意味的に豊かな探索をシードする。
- 探索エージェント、検証エージェント、要約エージェント、評価エージェントからなる多エージェント・パイプラインを用いて軌道を生成・検証・要約・品質検証を行う。
- 深さと広がりのバランスを取るための時系列の幅減衰を伴う適応的な木トポロジーと、横断的な多様性を最大化するグローバルメモリを実装する。
- 無効な遷移をフィルタリングするステップワイズ検証と、新規接頭辞による木間の冗長性を減らすグローバルメモリを用い、決定論ノードリプレイによる非同期スケーラブルリプレイを可能にする。
- 階層的なタスク要約、四次元の品質評価(タスク有用性、ステップ効率、整合性、一貫性)、そしてアフター・ヒンシット推論の統合によって高品質なデータを生成する。
- TreeCUA-DPO への拡張として、ブランチノードから反事実的好みデータを生成し、深さ方向の一様サンプリングと異なる目標での改善された計画のための二重好みペアを可能にする。
実験結果
リサーチクエスチョン
- RQ1GUI 軌道データを過度な人手アノテーションなしで効率的にスケールさせるにはどうすればよいか。
- RQ2木構造化探索フレームワークは GUI 軌道合成における冗長性を削減し、多様性を向上させられるか。
- RQ3世界知識の初期化とグローバルメモリは長尾タスクの発見と語彙的多様性を改善するか。
- RQ4木構造の軌道は DPO ベースの微調整と併用することで GUI 計画を改善できるか。
- RQ5TreeCUA および TreeCUA-DPO の OOD(分布外)GUI タスクへの一般化能力はどの程度か。
主な発見
| Model | Steps | Overall | Chrome | GIMP | Calc | Impress | Writer | Multi | OS | TB | VLC | Code |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Seed-1.8 | 100 | 61.92 | 63.0 | 53.8 | 72.3 | 68.0 | 82.5 | 49.0 | 70.8 | 60.0 | 58.2 | 73.9 |
| Claude-Sonnet-4.5 | 50 | 58.1 | 56.4 | 57.7 | 66.0 | 57.5 | 65.2 | 47.0 | 70.8 | 66.7 | 52.9 | 69.6 |
| Qwen2.5-VL-7B | 50 | 5.5 | 8.7 | 11.5 | 0.0 | 0.0 | 4.3 | 1.1 | 8.3 | 6.7 | 17.6 | 21.7 |
| ScaleCUA-7B | 50 | 15.0 | - | - | - | - | - | - | - | - | - | - |
| OpenCUA-7B | 15 | 24.3 | 36.9 | 50.0 | 10.6 | 36.1 | 26.1 | 6.5 | 29.2 | 53.3 | 29.4 | 43.5 |
| UI-TARS-1.5-7B | 50 | 25.1 | 28.8 | 50.0 | 4.3 | 36.1 | 39.1 | 9.8 | 25.0 | 46.7 | 18.8 | 47.8 |
| UltraCUA-7B | 15 | 28.9 | 41.2 | 50.0 | 13.9 | 27.1 | 55.4 | 10.6 | 37.0 | 33.6 | 43.3 | 46.7 |
| TreeCUA-7B | 50 | 34.6 | 28.3 | 76.9 | 27.7 | 40.4 | 43.5 | 14.0 | 58.3 | 33.3 | 41.2 | 47.8 |
| TreeCUA-DPO-7B | 50 | 36.6 | 39.1 | 76.9 | 25.5 | 29.8 | 47.8 | 15.1 | 54.2 | 53.3 | 47.1 | 60.9 |
- TreeCUA と TreeCUA-DPO は OSWorld ベンチマークで最先端の性能を達成し、OOD タスクへの一般化も強い。
- TreeCUA-7B および TreeCUA-DPO-7B は域内評価で公開データの軌道ベースラインを大幅に上回る。
- ブランチ情報を用いて DPO を訓練すると、論理集約型ドメイン(例:TB、Code、Chrome)での計画が改善される。
- 世界知識初期化は盲目的探索と比較して意味的タスクの発見と語彙的多様性を高める。
- グローバル履歴は木間のアクション冗長性を減らし、木間でより多様で意味的に異なる探索を実現する。
- 二段階の SFT 訓練(基盤的訓練 → 認知的意図訓練)は ID および OOD の両方の性能にとって重要である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。