Skip to main content
QUICK REVIEW

[논문 리뷰] World-Gymnast: Training Robots with Reinforcement Learning in a World Model

Ansh Kumar Sharma, Yixiang Sun|arXiv (Cornell University)|2026. 02. 02.
Reinforcement Learning in Robotics인용 수 0
한 줄 요약

World-Gymnast가 비전-언어 보상 모델을 사용하여 행동 조건부 비디오 월드 모델 안에서 비전-언어-액션 정책을 미세조정하고, 실제 로봇 성능은 SFT 및 소프트웨어 시뮬레이터 대비 우수하며, 테스트 시점 및 반복 개선에서 성과를 달성합니다.

ABSTRACT

Robot learning from interacting with the physical world is fundamentally bottlenecked by the cost of physical interaction. The two alternatives, supervised finetuning (SFT) from expert demonstrations and reinforcement learning (RL) in a software-based simulator, are limited by the amount of expert data available and the sim-to-real gap for manipulation. With the recent emergence of world models learned from real-world video-action data, we ask the question of whether training a policy in a world model can be more effective than supervised learning or software simulation in achieving better real-robot performance. We propose World-Gymnast, which performs RL finetuning of a vision-language-action (VLA) policy by rolling out the policy in an action-conditioned video world model and rewarding the rollouts with a vision-language model (VLM). On the Bridge robot setup, World-Gymnast outperforms SFT by as much as 18x and outperforms software simulator by as much as 2x. More importantly, World-Gymnast demonstrates intriguing capabilities of RL with a world model, including training on diverse language instructions and novel scenes from the world model, test-time training in a novel scene, and online iterative world model and policy improvement. Our results suggest learning a world model and training robot policies in the cloud could be the key to bridging the gap between robots that work in demonstrations and robots that can work in anyone's household.

연구 동기 및 목표

  • 현실 세계 데이터로부터 학습된 월드 모델 안에서 정책을 학습해 실제 로봇 데이터 비용을 줄인다.
  • 월드 모델에서의 RL 미세조정이 SFT나 전통적 시뮬레이터보다 실세계 성능이 더 좋음을 입증한다.
  • 임의의 초기 프레임, 새로운 언어 지시 및 테스트 시/반복적인 월드-모델/정책 개선으로 훈련을 가능하게 한다.
  • AutoEval를 통한 실제 로봇 평가로 Bridge 로봇 작업에 시스템을 시연한다.
  • 산만 요소, 새로운 언어 프롬프트 및 더 많은 작업을 통한 데이터 증강 및 확장성을 탐구한다.

제안 방법

  • World-Gymnast를 사용해 WorldGym이라는 행위 조건부 월드 모델 안에서 비전-언어-정책을 RL로 미세조정한다.
  • 현재 정책으로 월드 모델에서 상상된 궤적을 롤아웃하고 정책에서 액션을 샘플링한다.
  • 예상 프레임으로부터 비전-언어 모델(VLM)로 이진 작업 보상을 계산한다.
  • 그룹 기반 정규화(GRPO)를 사용해 정책 이점을 추정하고 PPO 스타일의 클립드 목적함수로 최적화한다.
  • 임의의 초기 프레임, 새로운 언어 지시 및 산만 요소를 포함하는 다양한 학습 시나리오로 강인성을 향상한다.
  • 선택적으로 실제 로봇 데이터를 사용해 월드 모델(Dyna-유사)과 정책을 온라인으로 반복 업데이트해 롤아웃을 다듬는다.
Figure 1 : Overview of World-Gymnast. The policy is trained on tasks specified by an initial frame and language instruction. During training, the policy outputs actions which are then passed to the world model (WorldGym (Quevedo et al. , 2025 ) ) which generates imagined rollouts. These rollouts are
Figure 1 : Overview of World-Gymnast. The policy is trained on tasks specified by an initial frame and language instruction. During training, the policy outputs actions which are then passed to the world model (WorldGym (Quevedo et al. , 2025 ) ) which generates imagined rollouts. These rollouts are

실험 결과

연구 질문

  • RQ1학습된 월드 모델 안에서 정책을 학습하는 것이 SFT나 소프트웨어-시뮬레이터 RL보다 실제 로봇 성능이 더 우수한가?
  • RQ2World-Gymnast가 임의의 초기 프레임, 새로운 언어 지시 및 novel 씬에서의 테스트 시 학습을 지원할 수 있는가?
  • RQ3월드-모델과 정책의 반복적인 개선이 시뮬레이터-현실 간 격차를 더 줄일 수 있는가?
  • RQ4산만 요소나 언어 변형과 함께 다양한 작업에서 이 접근 방식의 성능은 어떻게 나타나는가?

주요 결과

  • World-Gymnast는 실제 로봇 작업에서 SFT 및 소프트웨어-시뮬레이터 기반 기준선보다 상당히 우수한 성능을 보인다.
  • 네 가지 Bridge 작업에서 SIMPLER보다 세 작업에서 더 높은 실제 로봇 성공률을 달성하고 전반적으로 유의미한 이득을 보인다.
  • 산만 요소와 새로운 언어 지시를 통한 학습은 강건성과 일반화를 더욱 향상시킨다(World-Gymnast-Distract, World-Gymnast-Language).
  • 새로운 프레임에서의 테스트-타임 훈련은 특정 작업(Open the drawer 등)에서 62%에서 100%로 향상을 가져올 수 있지만, 다른 작업에서 악화 위험이 있을 수 있다.
  • 반복적인 월드-모델 및 정책 업데이트(Dyna-식)는 롤아웃의 현실감과 실제 성능을 향상시키며(Open the drawer 작업에서 AutoEval에서 95%에 도달).
Figure 2 : Qualitative evaluation of policy rollouts in WorldGym with distractors. We compare rollout quality among SFT, World-Gymnast and World-Gymnast-Distract under visual distractions. The task on the left is put blue cup on plate and the SFT policy clearly picks up the wrong cup, while both Wor
Figure 2 : Qualitative evaluation of policy rollouts in WorldGym with distractors. We compare rollout quality among SFT, World-Gymnast and World-Gymnast-Distract under visual distractions. The task on the left is put blue cup on plate and the SFT policy clearly picks up the wrong cup, while both Wor

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.