[论文解读] Self-Improving World Modelling with Latent Actions
SWIRL 通过将动作视为潜变量,对状态序列进行学习;使用互惠 RL 交替优化前向世界建模和逆向动力学模型。在无动作注释的情况下,在多模态环境中实现了强大表现。
Internal modelling of the world -- predicting transitions between previous states $X$ and next states $Y$ under actions $Z$ -- is essential to reasoning and planning for LLMs and VLMs. Learning such models typically requires costly action-labelled trajectories. We propose SWIRL, a self-improvement framework that learns from state-only sequences by treating actions as a latent variable and alternating between Forward World Modelling (FWM) $P_θ(Y|X,Z)$ and an Inverse Dynamics Modelling (IDM) $Q_ϕ(Z|X,Y)$. SWIRL iterates two phases: (1) Variational Information Maximisation, which updates the FWM to generate next states that maximise conditional mutual information with latent actions given prior states, encouraging identifiable consistency; and (2) ELBO Maximisation, which updates the IDM to explain observed transitions, effectively performing coordinate ascent. Both models are trained with reinforcement learning (specifically, GRPO) with the opposite frozen model's log-probability as a reward signal. We provide theoretical learnability guarantees for both updates, and evaluate SWIRL on LLMs and VLMs across multiple environments: single-turn and multi-turn open-world visual dynamics and synthetic textual environments for physics, web, and tool calling. SWIRL achieves gains of 16% on AURORABench, 28% on ByteMorph, 16% on WorldPredictionBench, and 14% on StableToolBench.
研究动机与目标
- 为大语言模型(LLMs)和视觉语言模型(VLMs)在没有动作注释的情况下,推动鲁棒的内部世界建模。
- 提出一个互惠优化框架(FWM 与 IDM),通过 GRPO 进行训练。
- 给出理论保证,将 Phase I 与变分互信息的下界联系起来,将 Phase II 与对数似然下界(ELBO)优化联系起来。
- 在开放世界的视觉动力学、文本仿真、网页交互和工具使用等方面展示经验收益。
提出的方法
- 用前向世界建模 P_theta(y|x,z) 与逆向动力学 Q_phi(z|x,y) 正式化世界建模。
- 交替进行两个阶段:阶段 I 优化 FWM,使条件互信息 I(Z; Ŷ|X) 的下界最大化;阶段 II 优化 IDM,使对数似然 P_theta(Y|X) 的 ELBO 最大化。
- 使用组相对策略优化(GRPO)来更新两个模型,将对方视为奖励信号。
- 从 IDM 采样潜在动作,使用 FWM 生成滚动回放,并以 IDM 的对数似然作为奖励;随后冻结 FWM,为 IDM 采样动作,并以 FWM 的对数似然作为奖励。
- 应用理论证明,SWIRL 等价于对 CMI 的变分下界以及 IDM 的 ELBO 目标;通过在多种环境中的实验进行验证。
实验结果
研究问题
- RQ1潜在动作世界模型是否能够仅从状态序列学习,而不需要地面真值动作?
- RQ2前向预测与逆向动力学之间的互惠优化是否能够产生可辨识且忠实的世界模型?
- RQ3与带动作注释或监督基线相比,SWIRL 在视觉与文本动态环境中的表现如何?
- RQ4伴随 SWIRL 更新的理论保证(CMI 下界与 ELBO 最大化)是什么?
主要发现
- SWIRL 在多个基准(如 Aurora-Bench、ByteMorph、WorldPredictionBench、StableToolBench)上显著优于 SFT 基线。
- 具有共享或分离权重的迭代式 SWIRL 变体,在视觉动力学任务上的评价指标高于非迭代基线。
- SWIRL 相较于 SFT 在长时间序列保真度方面保持更高的时序一致性,直至 WorldPredictionBench 的远期时刻。
- 在文本环境中,SWIRL 提升了工具动力学的泛化,BLEU 等相关指标超越 SFT,在 StableToolBench 上表现优越。
- 在多项基准中,SWIRL 达到或接近更大模型的状态,同时使用较轻的后训练,展现数据高效、自我改进学习的能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。