QUICK REVIEW

[논문 리뷰] TreeCUA: Efficiently Scaling GUI Automation with Tree-Structured Verifiable Evolution

Deyang Jiang, Jing Huang|arXiv (Cornell University)|2026. 02. 10.

Robotic Path Planning Algorithms인용 수 0

한 줄 요약

TreeCUA는 트리 구조의 검증 가능한 데이터 합성 프레임워크를 통해 다중 에이전트 구성을 사용하여 GUI 자동화와 궤적 계획을 확장하고, 분기 정보를 활용한 개선된 계획 수립을 위한 TreeCUA-DPO를 도입한다.

ABSTRACT

Effectively scaling GUI automation is essential for computer-use agents (CUAs); however, existing work primarily focuses on scaling GUI grounding rather than the more crucial GUI planning, which requires more sophisticated data collection. In reality, the exploration process of a CUA across apps/desktops/web pages typically follows a tree structure, with earlier functional entry points often being explored more frequently. Thus, organizing large-scale trajectories into tree structures can reduce data cost and streamline the data scaling of GUI planning. In this work, we propose TreeCUA to efficiently scale GUI automation with tree-structured verifiable evolution. We propose a multi-agent collaborative framework to explore the environment, verify actions, summarize trajectories, and evaluate quality to generate high-quality and scalable GUI trajectories. To improve efficiency, we devise a novel tree-based topology to store and replay duplicate exploration nodes, and design an adaptive exploration algorithm to balance the depth (\emph{i.e.}, trajectory difficulty) and breadth (\emph{i.e.}, trajectory diversity). Moreover, we develop world knowledge guidance and global memory backtracking to avoid low-quality generation. Finally, we naturally extend and propose the TreeCUA-DPO method from abundant tree node information, improving GUI planning capability by referring to the branch information of adjacent trajectories. Experimental results show that TreeCUA and TreeCUA-DPO offer significant improvements, and out-of-domain (OOD) studies further demonstrate strong generalization. All trajectory node information and code will be available at https://github.com/UITron-hub/TreeCUA.

연구 동기 및 목표

정적 GUI 기반의 한정된 하이레벨 GUI 접지보다 확장 가능한 장기 궤적 합성의 필요성에 대한 동기 부여.
단계 중복을 줄이고 궤적 다양성을 높이기 위한 트리 구조 데이터 합성 프레임워크 개발.
월드 지식 안내 및 글로벌 메모리를 활용한 다중 에이전트 탐색, 검증, 요약, 평가 파이프라인 제안.
탐색 노드의 재현 가능한 재생 및 비동기 병렬 실행을 통한 효율적 재생 가능성 확보.
분기 정보를 활용하여 인접 궤적을 참조하는 계획 강화를 위한 TreeCUA-DPO 도입

제안 방법

탐색을 상태인 노드와 행동인 에지로 구성된 트리로 정의하고, 다양하고 의미 있는 탐색을 seed하기 위해 월드 지식 초기화를 사용한다.
탐색 에이전트, 검증 에이전트, 요약 에이전트, 평가 에이전트로 구성된 다중 에이전트 파이프라인을 활용하여 궤적을 생성, 검증, 요약 및 품질 점검한다.
깊이와 폭의 균형을 맞추기 위한 시간적 폭 감소를 갖는 적응적 트리 토폴로지와 교차 트리 다양성을 극대화하는 글로벌 메모리 구현.
무효한 전이를 필터링하기 위한 단계별 검증과 새로운 접두사를 통한 inter-tree 중복 감소를 위한 글로벌 메모리 활용; 결정적 노드 재생을 통한 비동기적 확장 가능한 재생 활성화.
계층적 작업 요약, 네 가지 차원의 품질 평가(작업 유용성, 단계 효율성, 일관성, 응집력) 및 사후 사고를 통한 합성으로 고품질 데이터 생산.
분기 노드로부터 반사적 선호 데이터를 생성하여 깊이 균일 샘플링과 이중 선호 페어를 가능하게 하여 다양한 목표에서의 계획 개선을 위한 TreeCUA-DPO 확장

실험 결과

연구 질문

RQ1GUI 궤적 데이터를 과도한 인간 주석 없이 어떻게 효율적으로 확장할 수 있는가?
RQ2트리 구조 탐색 프레임워크가 GUI 궤적 합성의 중복을 줄이고 다양성을 개선할 수 있는가?
RQ3월드 지식 초기화와 글로벌 메모리가 장尾 태스크 발견과 어휘 다양성을 개선하는가?
RQ4트리 구조 궤적이 DPO 기반 미세 조정과 함께 GUI 계획을 향상시킬 수 있는가?
RQ5TreeCUA 및 TreeCUA-DPO의 OOD 외 GUI 태스크에서의 일반화 능력은 어떠한가?

주요 결과

모델	단계	전반적	Chrome	GIMP	Calc	Impress	Writer	멀티	OS	TB	VLC	코드
Seed-1.8	100	61.92	63.0	53.8	72.3	68.0	82.5	49.0	70.8	60.0	58.2	73.9
Claude-Sonnet-4.5	50	58.1	56.4	57.7	66.0	57.5	65.2	47.0	70.8	66.7	52.9	69.6
Qwen2.5-VL-7B	50	5.5	8.7	11.5	0.0	0.0	4.3	1.1	8.3	6.7	17.6	21.7
ScaleCUA-7B	50	15.0	-	-	-	-	-	-	-	-	-	-
OpenCUA-7B	15	24.3	36.9	50.0	10.6	36.1	26.1	6.5	29.2	53.3	29.4	43.5
UI-TARS-1.5-7B	50	25.1	28.8	50.0	4.3	36.1	39.1	9.8	25.0	46.7	18.8	47.8
UltraCUA-7B	15	28.9	41.2	50.0	13.9	27.1	55.4	10.6	37.0	33.6	43.3	46.7
TreeCUA-7B	50	34.6	28.3	76.9	27.7	40.4	43.5	14.0	58.3	33.3	41.2	47.8
TreeCUA-DPO-7B	50	36.6	39.1	76.9	25.5	29.8	47.8	15.1	54.2	53.3	47.1	60.9

TreeCUA 및 TreeCUA-DPO가 OSWorld 벤치마크에서 최첨단 성능을 달성하고 OOD 태스크에 대한 강한 일반화를 보인다.
TreeCUA-7B 및 TreeCUA-DPO-7B가 도메인 내 평가에서 오픈 소스 궤적 기준선보다 현저히 우수하다.
나뉘어진 정보로 학습된 DPO가 논리 집약적 도메인(예: TB, Code, Chrome)의 계획을 개선한다.
월드 지식 초기화가 맹목적 탐색 대비 의미론적 작업 발견과 어휘 다양성을 증가시킨다.
글로벌 히스토리는 트리 간의 행동 중복을 감소시키고 트리 간의 더 다양한, 의미적으로 구별되는 탐색을 이끈다.
두 단계 SFT 학습(기초적 이후 인지 의도)은 ID 및 OOD 성능 모두에 결정적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.