[논문 리뷰] TreeCUA: Efficiently Scaling GUI Automation with Tree-Structured Verifiable Evolution
TreeCUA는 트리 구조의 검증 가능한 데이터 합성 프레임워크를 통해 다중 에이전트 구성을 사용하여 GUI 자동화와 궤적 계획을 확장하고, 분기 정보를 활용한 개선된 계획 수립을 위한 TreeCUA-DPO를 도입한다.
Effectively scaling GUI automation is essential for computer-use agents (CUAs); however, existing work primarily focuses on scaling GUI grounding rather than the more crucial GUI planning, which requires more sophisticated data collection. In reality, the exploration process of a CUA across apps/desktops/web pages typically follows a tree structure, with earlier functional entry points often being explored more frequently. Thus, organizing large-scale trajectories into tree structures can reduce data cost and streamline the data scaling of GUI planning. In this work, we propose TreeCUA to efficiently scale GUI automation with tree-structured verifiable evolution. We propose a multi-agent collaborative framework to explore the environment, verify actions, summarize trajectories, and evaluate quality to generate high-quality and scalable GUI trajectories. To improve efficiency, we devise a novel tree-based topology to store and replay duplicate exploration nodes, and design an adaptive exploration algorithm to balance the depth (\emph{i.e.}, trajectory difficulty) and breadth (\emph{i.e.}, trajectory diversity). Moreover, we develop world knowledge guidance and global memory backtracking to avoid low-quality generation. Finally, we naturally extend and propose the TreeCUA-DPO method from abundant tree node information, improving GUI planning capability by referring to the branch information of adjacent trajectories. Experimental results show that TreeCUA and TreeCUA-DPO offer significant improvements, and out-of-domain (OOD) studies further demonstrate strong generalization. All trajectory node information and code will be available at https://github.com/UITron-hub/TreeCUA.
연구 동기 및 목표
- 정적 GUI 기반의 한정된 하이레벨 GUI 접지보다 확장 가능한 장기 궤적 합성의 필요성에 대한 동기 부여.
- 단계 중복을 줄이고 궤적 다양성을 높이기 위한 트리 구조 데이터 합성 프레임워크 개발.
- 월드 지식 안내 및 글로벌 메모리를 활용한 다중 에이전트 탐색, 검증, 요약, 평가 파이프라인 제안.
- 탐색 노드의 재현 가능한 재생 및 비동기 병렬 실행을 통한 효율적 재생 가능성 확보.
- 분기 정보를 활용하여 인접 궤적을 참조하는 계획 강화를 위한 TreeCUA-DPO 도입
제안 방법
- 탐색을 상태인 노드와 행동인 에지로 구성된 트리로 정의하고, 다양하고 의미 있는 탐색을 seed하기 위해 월드 지식 초기화를 사용한다.
- 탐색 에이전트, 검증 에이전트, 요약 에이전트, 평가 에이전트로 구성된 다중 에이전트 파이프라인을 활용하여 궤적을 생성, 검증, 요약 및 품질 점검한다.
- 깊이와 폭의 균형을 맞추기 위한 시간적 폭 감소를 갖는 적응적 트리 토폴로지와 교차 트리 다양성을 극대화하는 글로벌 메모리 구현.
- 무효한 전이를 필터링하기 위한 단계별 검증과 새로운 접두사를 통한 inter-tree 중복 감소를 위한 글로벌 메모리 활용; 결정적 노드 재생을 통한 비동기적 확장 가능한 재생 활성화.
- 계층적 작업 요약, 네 가지 차원의 품질 평가(작업 유용성, 단계 효율성, 일관성, 응집력) 및 사후 사고를 통한 합성으로 고품질 데이터 생산.
- 분기 노드로부터 반사적 선호 데이터를 생성하여 깊이 균일 샘플링과 이중 선호 페어를 가능하게 하여 다양한 목표에서의 계획 개선을 위한 TreeCUA-DPO 확장
실험 결과
연구 질문
- RQ1GUI 궤적 데이터를 과도한 인간 주석 없이 어떻게 효율적으로 확장할 수 있는가?
- RQ2트리 구조 탐색 프레임워크가 GUI 궤적 합성의 중복을 줄이고 다양성을 개선할 수 있는가?
- RQ3월드 지식 초기화와 글로벌 메모리가 장尾 태스크 발견과 어휘 다양성을 개선하는가?
- RQ4트리 구조 궤적이 DPO 기반 미세 조정과 함께 GUI 계획을 향상시킬 수 있는가?
- RQ5TreeCUA 및 TreeCUA-DPO의 OOD 외 GUI 태스크에서의 일반화 능력은 어떠한가?
주요 결과
| 모델 | 단계 | 전반적 | Chrome | GIMP | Calc | Impress | Writer | 멀티 | OS | TB | VLC | 코드 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Seed-1.8 | 100 | 61.92 | 63.0 | 53.8 | 72.3 | 68.0 | 82.5 | 49.0 | 70.8 | 60.0 | 58.2 | 73.9 |
| Claude-Sonnet-4.5 | 50 | 58.1 | 56.4 | 57.7 | 66.0 | 57.5 | 65.2 | 47.0 | 70.8 | 66.7 | 52.9 | 69.6 |
| Qwen2.5-VL-7B | 50 | 5.5 | 8.7 | 11.5 | 0.0 | 0.0 | 4.3 | 1.1 | 8.3 | 6.7 | 17.6 | 21.7 |
| ScaleCUA-7B | 50 | 15.0 | - | - | - | - | - | - | - | - | - | - |
| OpenCUA-7B | 15 | 24.3 | 36.9 | 50.0 | 10.6 | 36.1 | 26.1 | 6.5 | 29.2 | 53.3 | 29.4 | 43.5 |
| UI-TARS-1.5-7B | 50 | 25.1 | 28.8 | 50.0 | 4.3 | 36.1 | 39.1 | 9.8 | 25.0 | 46.7 | 18.8 | 47.8 |
| UltraCUA-7B | 15 | 28.9 | 41.2 | 50.0 | 13.9 | 27.1 | 55.4 | 10.6 | 37.0 | 33.6 | 43.3 | 46.7 |
| TreeCUA-7B | 50 | 34.6 | 28.3 | 76.9 | 27.7 | 40.4 | 43.5 | 14.0 | 58.3 | 33.3 | 41.2 | 47.8 |
| TreeCUA-DPO-7B | 50 | 36.6 | 39.1 | 76.9 | 25.5 | 29.8 | 47.8 | 15.1 | 54.2 | 53.3 | 47.1 | 60.9 |
- TreeCUA 및 TreeCUA-DPO가 OSWorld 벤치마크에서 최첨단 성능을 달성하고 OOD 태스크에 대한 강한 일반화를 보인다.
- TreeCUA-7B 및 TreeCUA-DPO-7B가 도메인 내 평가에서 오픈 소스 궤적 기준선보다 현저히 우수하다.
- 나뉘어진 정보로 학습된 DPO가 논리 집약적 도메인(예: TB, Code, Chrome)의 계획을 개선한다.
- 월드 지식 초기화가 맹목적 탐색 대비 의미론적 작업 발견과 어휘 다양성을 증가시킨다.
- 글로벌 히스토리는 트리 간의 행동 중복을 감소시키고 트리 간의 더 다양한, 의미적으로 구별되는 탐색을 이끈다.
- 두 단계 SFT 학습(기초적 이후 인지 의도)은 ID 및 OOD 성능 모두에 결정적이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.