Skip to main content
QUICK REVIEW

[论文解读] Computer-Using World Model

Yiming Guan, Rui Yu|arXiv (Cornell University)|Feb 19, 2026
Advanced Software Engineering Methodologies被引用 0
一句话总结

CUWM 引入一个两阶段桌面 GUI 世界模型,先预测因动作引起的 UI 状态变化的文本描述,然后将下一 UI 状态可视化呈现。它在 Office 应用数据上进行训练,测试时用于模拟行动结果,以提升计划性和鲁棒性。

ABSTRACT

Agents operating in complex software environments benefit from reasoning about the consequences of their actions, as even a single incorrect user interface (UI) operation can derail long, artifact-preserving workflows. This challenge is particularly acute for computer-using scenarios, where real execution does not support counterfactual exploration, making large-scale trial-and-error learning and planning impractical despite the environment being fully digital and deterministic. We introduce the Computer-Using World Model (CUWM), a world model for desktop software that predicts the next UI state given the current state and a candidate action. CUWM adopts a two-stage factorization of UI dynamics: it first predicts a textual description of agent-relevant state changes, and then realizes these changes visually to synthesize the next screenshot. CUWM is trained on offline UI transitions collected from agents interacting with real Microsoft Office applications, and further refined with a lightweight reinforcement learning stage that aligns textual transition predictions with the structural requirements of computer-using environments. We evaluate CUWM via test-time action search, where a frozen agent uses the world model to simulate and compare candidate actions before execution. Across a range of Office tasks, world-model-guided test-time scaling improves decision quality and execution robustness.

研究动机与目标

  • 为完全数字化桌面 GUI 环境中的计算机使用代理人推动安全、以计划为驱动的决策提供动机。
  • 开发一个能够捕捉结构化 UI 动态并支持反事实推理的世界模型,无需 live 实验。
  • 通过模拟候选动作并选择最佳动作,实现测试时的行动搜索。
  • 利用离线 Office 应用数据以轻量化 RL 初始化并细化模型。
  • 在 Word、Excel、PowerPoint 中展示决策质量和鲁棒性的提升。

提出的方法

  • 将 UI 动态分解为两个阶段:文本状态转移预测与视觉状态实现。
  • 使用视觉-语言模型(Qwen2.5-VL)从 (st, at) 预测简明转移描述 Δt。
  • 使用扩散式图像编辑器(Qwen-Image-Edit)从 (st, Δt) 渲染下一 UI 状态 ŝt+1。
  • 通过对从 GUI-360 路径(st, at, st+1)派生的 GPT 注释转移进行监督学习训练。
  • 利用基于评估者奖励的轻量化强化学习对文本转移进行细化,并引入长度惩罚(基于 GRPO 的)。
  • 通过世界模型引导的测试时行动搜索评估,在冻结的代理策略下比较候选动作的想象结果。

实验结果

研究问题

  • RQ1两阶段的显式 UI 转移模型是否能提升桌面应用中 GUI 基代理的规划能力?
  • RQ2文本转移预测加上视觉实现是否能真实地捕捉对决策有用的可操作 UI 变化?
  • RQ3测试时 UI 结果的模拟是否能提升 Office 任务(如 Word、Excel、PowerPoint)中代理的表现?

主要发现

  • 文本状态转移模型在“基线(Base) → SFT → SFT+RL”评估中的分数提升:0.6027(Base)→ 0.6834(SFT)→ 0.6883(SFT+RL)。
  • 行动一致性分数(ACS)在各代理骨干网络中对 SFT+RL 最高,表明对与决策相关信息的保留更好。
  • 在使用文本转移时,视觉状态实现显示显著提升:CUWM 在 PSNR(14.91)、SSIM(0.67)上优于基线,LPIPS(0.21)更低,FID(20.48)也更低。
  • 文本感知总体提升,CUWM 达到 0.716,Word 0.742、Excel 0.707、PPT 0.689。
  • 世界模型引导的测试时行动搜索在多种骨干网络(如 GPT-4o、Qwen3-VL-8B)上相较基线提升了代理任务分数,且在若干设定中仅图像输入优于文本输入或混合输入。
  • 将文本和图像预测结合在某些配置下可能降低代理性能,表明当前多模态集成仍存在挑战。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。