[論文レビュー] Self-Improving World Modelling with Latent Actions
SWIRL は行動を潜在変数として扱い、Forward World Modelling と Inverse Dynamics Models を reciprocal RL で交互に最適化することにより、視覚・テキスト・ウェブ・ツール使用環境において行動注釈なしで強力な結果を達成する。
Internal modelling of the world -- predicting transitions between previous states $X$ and next states $Y$ under actions $Z$ -- is essential to reasoning and planning for LLMs and VLMs. Learning such models typically requires costly action-labelled trajectories. We propose SWIRL, a self-improvement framework that learns from state-only sequences by treating actions as a latent variable and alternating between Forward World Modelling (FWM) $P_θ(Y|X,Z)$ and an Inverse Dynamics Modelling (IDM) $Q_ϕ(Z|X,Y)$. SWIRL iterates two phases: (1) Variational Information Maximisation, which updates the FWM to generate next states that maximise conditional mutual information with latent actions given prior states, encouraging identifiable consistency; and (2) ELBO Maximisation, which updates the IDM to explain observed transitions, effectively performing coordinate ascent. Both models are trained with reinforcement learning (specifically, GRPO) with the opposite frozen model's log-probability as a reward signal. We provide theoretical learnability guarantees for both updates, and evaluate SWIRL on LLMs and VLMs across multiple environments: single-turn and multi-turn open-world visual dynamics and synthetic textual environments for physics, web, and tool calling. SWIRL achieves gains of 16% on AURORABench, 28% on ByteMorph, 16% on WorldPredictionBench, and 14% on StableToolBench.
研究の動機と目的
- LLMs と VLMs のために action annotation 無しで堅牢な内部世界モデリングを動機づける。
- reciprocal optimization フレームワーク(FWM と IDM)を GRPO で訓練する。
- Phase I を variational mutual information の下界に、Phase II を ELBO 最適化に結び付ける理論的保証を提供する。
- open-world の視覚ダイナミクス、テキストシミュレーション、ウェブ対話、ツール使用における実証的利得を示す。
提案手法
- Forward World Modelling P_theta(y|x,z) および Inverse Dynamics Q_phi(z|x,y) による世界モデリングを形式化する。
- 二つのフェーズを交互に実行する:Phase I は条件付き相互情報 I(Z; Ŷ|X) の下界を最大化するよう FWM を最適化; Phase II は log P_theta(Y|X) のELBOを最大化するよう IDM を最適化。
- 他方を報酬信号として扱い、Group Relative Policy Optimisation (GRPO) を用いて両モデルを更新する。
- IDM から潜在行動をサンプルし、FWM でロールアウトを生成し、IDM の対数尤度で報酬を与える。次に FWM を固定し IDM のために行動をサンプリングして FWM の対数尤度で報酬を与える。
- CMI の変分下界および IDM のELBO目的への同値性を示す理論を適用し、複数環境での実験で検証する。
実験結果
リサーチクエスチョン
- RQ1潜在-action 世界モデルは ground-truth 行動なしで状態のみのシーケンスから効果的に学習できるか。
- RQ2 forward 予測と inverse dynamics の reciprocal 最適化は識別可能で忠実な世界モデルを生み出すか。
- RQ3 SWIRL は視覚的・テキスト的ダイナミック環境で、行動注釈あり/ supervised ベースラインと比較してどうであるか。
- RQ4 SWIRL の更新に付随する理論保証(CMI 下界と ELBO 最大化)はどのようなものか。
主な発見
- SWIRL は複数のベンチマーク(例:Aurora-Bench、ByteMorph、WorldPredictionBench、StableToolBench)で SFT ベースラインより大幅な改善を示す。
- 重みを共有/分離している反復的 SWIRL は、視覚ダイナミクスタスクで非反復ベースラインより高い評価スコアを達成する。
- SWIRL は長期的な忠実度を SFT より維持し、WorldPredictionBench における時間的整合性を horizon 先まで改善する。
- テキスト環境では、ツールダイナミクスの一般化を高め、StableToolBench で BLEU などの指標で SFT を上回る。
- ベンチマーク全体で、SWIRL はより大きなモデルと同等の性能を引用しつつ軽量なポストトレーニングを用い、データ効率が高く自己改善的学習を実証する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。