[论文解读] UI-TARS: Pioneering Automated GUI Interaction with Native Agents
UI-TARS 提供了一个端到端原生 GUI 助手,通过屏幕截图感知 GUI、进行 System-1 与 System-2 思维推理、并从在线痕迹中迭代学习,在多项 GUI 基准测试中超越基于框架的模型。
This paper introduces UI-TARS, a native GUI agent model that solely perceives the screenshots as input and performs human-like interactions (e.g., keyboard and mouse operations). Unlike prevailing agent frameworks that depend on heavily wrapped commercial models (e.g., GPT-4o) with expert-crafted prompts and workflows, UI-TARS is an end-to-end model that outperforms these sophisticated frameworks. Experiments demonstrate its superior performance: UI-TARS achieves SOTA performance in 10+ GUI agent benchmarks evaluating perception, grounding, and GUI task execution. Notably, in the OSWorld benchmark, UI-TARS achieves scores of 24.6 with 50 steps and 22.7 with 15 steps, outperforming Claude (22.0 and 14.9 respectively). In AndroidWorld, UI-TARS achieves 46.6, surpassing GPT-4o (34.5). UI-TARS incorporates several key innovations: (1) Enhanced Perception: leveraging a large-scale dataset of GUI screenshots for context-aware understanding of UI elements and precise captioning; (2) Unified Action Modeling, which standardizes actions into a unified space across platforms and achieves precise grounding and interaction through large-scale action traces; (3) System-2 Reasoning, which incorporates deliberate reasoning into multi-step decision making, involving multiple reasoning patterns such as task decomposition, reflection thinking, milestone recognition, etc. (4) Iterative Training with Reflective Online Traces, which addresses the data bottleneck by automatically collecting, filtering, and reflectively refining new interaction traces on hundreds of virtual machines. Through iterative training and reflection tuning, UI-TARS continuously learns from its mistakes and adapts to unforeseen situations with minimal human intervention. We also analyze the evolution path of GUI agents to guide the further development of this domain.
研究动机与目标
- 推动从基于规则和框架的 GUI 助手转向原生端到端 GUI 助手模型的转变。
- 为原生 GUI 助手定义核心能力(感知、行动、推理、记忆)。
- 提出 UI-TARS 作为可扩展实现,具备感知增强、统一行动空间、系统 2 推理,以及迭代在线训练。
提出的方法
- 提出一个纯视觉的 GUI 助手,输入为截图,输出具备锚定的行动。
- 通过一个包含元素描述、密集描述、状态转移描述、问答和集合式提示等任务的大型 GUI 截图数据集来提升感知能力。
- 建立统一的行动空间,以标准化跨平台的行动并汇编大型行动痕迹数据集进行锚定。
- 在决策中引入 System-2 推理,通过注入故意思考过程和多样化的推理模式来实现。
- 实现带有反思痕迹、筛选和 Direct Preference Optimization (DPO) 的迭代在线训练,以从数百台虚拟机的痕迹中改进。
实验结果
研究问题
- RQ1一个原生的、端到端的 GUI 助手是否能够在感知、锚定与任务执行基准上超过模块化框架型代理?
- RQ2增强的 GUI 感知、统一行动建模和 System-2 推理如何在桌面、网页和移动 GUI 的性能提升中发挥作用?
- RQ3基于在线痕迹的带反思的迭代学习是否能提高鲁棒性和对未见界面的泛化能力?
主要发现
- UI-TARS 在感知、锚定和代理执行等10+ GUI 助手基准测试中达到最先进水平。
- UI-TARS-72B 在 VisualWebBench 上得分 82.8,超过 GPT-4o 的 78.5。
- 在 OSWorld 中,UI-TARS-72B 得分 24.6(50 步)和 22.7(15 步),超过 Claude 的 22.0 和 14.9。
- 在 AndroidWorld 中,UI-TARS 得分 46.6,超过 GPT-4o 的 34.5。
- 感知与锚定在移动、桌面和网页环境中取得高精度结果,存在具体示例(如 ScreenSpot Pro 上 38.1 等)。
- 实验表明 72B 变体在多步和动态任务中表现出色,验证了 System-2 推理与在线优化设计。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。