Skip to main content
QUICK REVIEW

[论文解读] TreeCUA: Efficiently Scaling GUI Automation with Tree-Structured Verifiable Evolution

Deyang Jiang, Jing Huang|arXiv (Cornell University)|Feb 10, 2026
Robotic Path Planning Algorithms被引用 0
一句话总结

TreeCUA 引入树结构、可验证的数据综合框架,采用多智能体设置以扩展 GUI 自动化与轨迹规划,并通过 TreeCUA-DPO 利用分支信息实现更优的规划。

ABSTRACT

Effectively scaling GUI automation is essential for computer-use agents (CUAs); however, existing work primarily focuses on scaling GUI grounding rather than the more crucial GUI planning, which requires more sophisticated data collection. In reality, the exploration process of a CUA across apps/desktops/web pages typically follows a tree structure, with earlier functional entry points often being explored more frequently. Thus, organizing large-scale trajectories into tree structures can reduce data cost and streamline the data scaling of GUI planning. In this work, we propose TreeCUA to efficiently scale GUI automation with tree-structured verifiable evolution. We propose a multi-agent collaborative framework to explore the environment, verify actions, summarize trajectories, and evaluate quality to generate high-quality and scalable GUI trajectories. To improve efficiency, we devise a novel tree-based topology to store and replay duplicate exploration nodes, and design an adaptive exploration algorithm to balance the depth (\emph{i.e.}, trajectory difficulty) and breadth (\emph{i.e.}, trajectory diversity). Moreover, we develop world knowledge guidance and global memory backtracking to avoid low-quality generation. Finally, we naturally extend and propose the TreeCUA-DPO method from abundant tree node information, improving GUI planning capability by referring to the branch information of adjacent trajectories. Experimental results show that TreeCUA and TreeCUA-DPO offer significant improvements, and out-of-domain (OOD) studies further demonstrate strong generalization. All trajectory node information and code will be available at https://github.com/UITron-hub/TreeCUA.

研究动机与目标

  • 推动在超越静态 GUI 固定目标下,对可扩展、长时程 GUI 轨迹合成的需求与动机。
  • 开发树结构数据综合框架以降低步骤冗余、提升轨迹多样性。
  • 提出具有世界知识引导与全局记忆的多智能体探索、验证、摘要与评估流程。
  • 通过确定性重放与异步并行执行实现对探索节点的高效回放。
  • 引入 TreeCUA-DPO,利用分支信息进行对比偏好数据生成,以实现对不同目标的更优规划。

提出的方法

  • 将探索定义为一个树,节点是状态,边是动作;利用世界知识初始化 Seed 多样、语义丰富的探索。
  • 采用多智能体流程:探索智能体、验证智能体、摘要智能体、评估智能体来生成、验证、总结并质控轨迹。
  • 实现带有时序宽度衰减的自适应树拓扑,以平衡深度与广度,并使用全局记忆最大化跨树多样性。
  • 通过逐步验证过滤无效迁移,并利用全局记忆通过新前缀降低跨树冗余;通过确定性节点重放实现异步可扩展回放。
  • 通过分层任务摘要、四维度质量评估(任务效用、步骤效率、一致性、连贯性)及事后推理合成来产出高质量数据。
  • 通过从分支节点生成对比偏好数据,将 TreeCUA-DPO 拓展为深度一致采样并为在不同目标下的改进规划提供双重偏好对。

实验结果

研究问题

  • RQ1如何在不依赖过多人工标注的情况下实现 GUI 轨迹数据的高效扩展?
  • RQ2树结构探索框架是否能够降低冗余、提升 GUI 轨迹合成的多样性?
  • RQ3世界知识初始化与全局记忆是否提升对长尾任务的发现与词汇多样性?
  • RQ4树结构轨迹在结合基于 DPO 的微调时,是否能提升 GUI 规划?
  • RQ5TreeCUA 与 TreeCUA-DPO 在分布外 GUI 任务上的泛化能力如何?

主要发现

  • TreeCUA 与 TreeCUA-DPO 在 OSWorld 基准测试中达到最先进水平,并对 OOD 任务呈现出强泛化能力。
  • TreeCUA-7B 与 TreeCUA-DPO-7B 在同域评估中显著优于开源轨迹基线。
  • 使用来自树结构的分支信息训练的 DPO 能在逻辑密集型领域(如 TB、Code、Chrome)中改进规划。
  • 世界知识初始化相比盲探索提升了语义任务发现与词汇多样性。
  • 全局历史记录降低了跨树的行动冗余,使跨树探索在语义上更具多样性与区分性。
  • 两阶段 SFT 训练(基础阶段再到认知意图阶段)对 ID 与 OOD 性能都至关重要。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。