Skip to main content
QUICK REVIEW

[論文レビュー] World-Gymnast: Training Robots with Reinforcement Learning in a World Model

Ansh Kumar Sharma, Yixiang Sun|arXiv (Cornell University)|Feb 2, 2026
Reinforcement Learning in Robotics被引用数 0
ひとこと要約

World-Gymnastは、アクション条件付きのビデオ世界モデル内でVision-Language-Actionポリシーをファインチューニングし、Vision-Language報酬モデルを用いて、SFTやソフトウェアシミュレータに対して実機ロボット性能で優位を達成。テスト時適応と反復改善を実現。

ABSTRACT

Robot learning from interacting with the physical world is fundamentally bottlenecked by the cost of physical interaction. The two alternatives, supervised finetuning (SFT) from expert demonstrations and reinforcement learning (RL) in a software-based simulator, are limited by the amount of expert data available and the sim-to-real gap for manipulation. With the recent emergence of world models learned from real-world video-action data, we ask the question of whether training a policy in a world model can be more effective than supervised learning or software simulation in achieving better real-robot performance. We propose World-Gymnast, which performs RL finetuning of a vision-language-action (VLA) policy by rolling out the policy in an action-conditioned video world model and rewarding the rollouts with a vision-language model (VLM). On the Bridge robot setup, World-Gymnast outperforms SFT by as much as 18x and outperforms software simulator by as much as 2x. More importantly, World-Gymnast demonstrates intriguing capabilities of RL with a world model, including training on diverse language instructions and novel scenes from the world model, test-time training in a novel scene, and online iterative world model and policy improvement. Our results suggest learning a world model and training robot policies in the cloud could be the key to bridging the gap between robots that work in demonstrations and robots that can work in anyone's household.

研究の動機と目的

  • 実世界データから学習した世界モデル内でポリシーを学習することで実機データコストを削減する。
  • 世界モデル内でRLファインチューニングを行うと、SFTや従来のシミュレータより実世界での性能が向上することを示す。
  • 任意の初期フレーム、新規言語指示、およびテスト時または反復的な世界モデル/ポリシーの改善を可能にする。
  • AutoEvalによる実機評価を伴うBridgeロボットタスクでシステムを紹介する。
  • 妨害要素、新しい言語プロンプト、より多くのタスクを通じたデータ増強とスケーラビリティを探る。

提案手法

  • World-Gymnastを用いて、WorldGymというアクション条件付き世界モデル内でRLを用いてVision-Language-Actionポリシーをファインチューニングする。
  • 現在のポリシーに基づく推論経路を世界モデル内で展開し、ポリシーからアクションをサンプルする。
  • 予測フレームからVision-Languageモデル(VLM)を用いて二値タスク報酬を計算する。
  • グループ正規化(GRPO)を用いてポリシーのアドバンテージを推定し、PPO風のクリップ付き目的関数で最適化する。
  • 任意の初期フレーム、 novel language instructions、妨害物体を含む多様な学習シナリオを組み込み、堅牢性を向上させる。
  • オプションとして、実ロボットデータを用いた世界モデル(Dyna風)とポリシーの反復的オンライン更新を行い、ロールアウトを改善する。
Figure 1 : Overview of World-Gymnast. The policy is trained on tasks specified by an initial frame and language instruction. During training, the policy outputs actions which are then passed to the world model (WorldGym (Quevedo et al. , 2025 ) ) which generates imagined rollouts. These rollouts are
Figure 1 : Overview of World-Gymnast. The policy is trained on tasks specified by an initial frame and language instruction. During training, the policy outputs actions which are then passed to the world model (WorldGym (Quevedo et al. , 2025 ) ) which generates imagined rollouts. These rollouts are

実験結果

リサーチクエスチョン

  • RQ1学習済み世界モデル内でポリシーを訓練することは、SFTやソフトウェアシミュレータRLより実機での性能を向上させるのか?
  • RQ2World-Gymnastは任意の初期フレーム、 novel language instructions、および novel sceneでのテスト時訓練をサポートできるのか?
  • RQ3反復的な世界モデルとポリシーの改善は、シム-リアルのギャップをさらに縮めるのか?
  • RQ4多様なタスク、妨害要素、言語のバリエーションでの適用はどうか?

主な発見

TaskSIMPLERWorld-Gymnast
Open the drawer34±7%58±4%
Close the drawer74±5%62±6%
Put the eggplant into the blue sink32±10%72±10%
Put the eggplant into the yellow basket40±10%78±2%
  • World-Gymnastは、実機ロボットタスクでSFTおよびソフトウェアシミュレーターのベースラインを大幅に上回る。
  • 4つのBridgeタスクで、SIMPLERより3つのタスクで実機成功率が高く、全体的にも顕著な向上を示す。
  • 妨害要素と新しい言語指示を用いた学習は、堅牢性と一般化をさらに向上させる(World-Gymnast-Distract、World-Gymnast-Language)。
  • novel frameからのテスト時訓練は、特定タスク(例:Close the drawer)を62%から100%へと向上させる可能性があるが、他のタスクでの劣化リスクもある。
  • 反復的な世界モデルとポリシーの更新(Dyna風)は、ロールアウトの現実性と実世界の性能を改善する(例:AutoEvalでOpen the drawerタスクが95%に達する)。
Figure 2 : Qualitative evaluation of policy rollouts in WorldGym with distractors. We compare rollout quality among SFT, World-Gymnast and World-Gymnast-Distract under visual distractions. The task on the left is put blue cup on plate and the SFT policy clearly picks up the wrong cup, while both Wor
Figure 2 : Qualitative evaluation of policy rollouts in WorldGym with distractors. We compare rollout quality among SFT, World-Gymnast and World-Gymnast-Distract under visual distractions. The task on the left is put blue cup on plate and the SFT policy clearly picks up the wrong cup, while both Wor

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。