Skip to main content
QUICK REVIEW

[논문 리뷰] Towards Practical World Model-based Reinforcement Learning for Vision-Language-Action Models

Zhilong Zhang, Haoxiang Ren|arXiv (Cornell University)|2026. 03. 21.
Multimodal Machine Learning Applications인용 수 0
한 줄 요약

논문은 Unified Multimodal Model 백본을 사용하고 멀티뷰 일관성을 위한 Interleaved view decoding, 그리고 분기 롤아웃을 통한 누적 오차 완화로 Vision-Language-Action(VLA) 모델의 미세 조정을 위한 실용적인 세계 모델 기반 RL 프레임워크인 VLA-MBPO를 소개한다.

ABSTRACT

Vision-Language-Action (VLA) models show strong generalization for robotic control, but finetuning them with reinforcement learning (RL) is constrained by the high cost and safety risks of real-world interaction. Training VLA models in interactive world models avoids these issues but introduces several challenges, including pixel-level world modeling, multi-view consistency, and compounding errors under sparse rewards. Building on recent advances across large multimodal models and model-based RL, we propose VLA-MBPO, a practical framework to tackle these problems in VLA finetuning. Our approach has three key design choices: (i) adapting unified multimodal models (UMMs) for data-efficient world modeling; (ii) an interleaved view decoding mechanism to enforce multi-view consistency; and (iii) chunk-level branched rollout to mitigate error compounding. Theoretical analysis and experiments across simulation and real-world tasks demonstrate that VLA-MBPO significantly improves policy performance and sample efficiency, underscoring its robustness and scalability for real-world robotic deployment.

연구 동기 및 목표

  • VLA 모델의 실제 환경에서의 데이터 비효율성과 안전성 문제를 해결한다.
  • 시각 정보와 보상을 함께 예측하는 통합 멀티모달 세계 모델(UMM) 백본을 제안한다.
  • Interleaved view decoding을 통해 다중 뷰 간의 일관성을 보장한다.
  • 분기 수준의 롤아웃으로 오차 누적을 완화한다.
  • 시뮬레이션 및 실제 작업에서 정책 성능과 데이터 효율성의 향상을 시연한다.

제안 방법

  • 픽셀 입력에서 다음 관측치와 보상을 예측하기 위해 사전 학습된 Unified Multimodal Model(UMM)을 세계 모델 백본으로 사용한다.
  • 연속 행동을 토큰으로 이산화하고 chunked 행동으로 T_theta를 통해 다음 관측치를 생성하여 엔드-투-엔드 UMM 사용이 가능하도록 한다.
  • 헤드 뷰와 손목 뷰 관측 사이의 크로스뷰 일관성을 보장하기 위해 인터리브 뷰 디코딩을 구현한다.
  • 짧은 롤아웃 계획 및 단계적 정책 업데이트를 통해 누적 오차를 줄이기 위해 분기 수준의 롤아웃을 적용한다.
  • 안정적인 정책 최적화를 위해 Flow-Noise(PPO 변형)를 채택하고 값 추정을 위한 MLP 헤드 V_phi(s,l)를 추가한다.
  • 분기 롤아웃과 청킹된 세계 모델로 가치 격차를 감소시키는 이론적 경계를 제시한다.

실험 결과

연구 질문

  • RQ1UMM 기반 세계 모델이 VLA 작업의 다중 뷰 동역학과 보상을 얼마나 잘 예측하는가?
  • RQ2VLA-MBPO가 시뮬레이션에서 기준 방법들보다 샘플 효율성과 정책 성능을 개선하는가?
  • RQ3다양한 작업에서 VLA-MBPO가 실제 로봇 공학으로 효과적으로 이전될 수 있는가?
  • RQ4롤아웃 길이, 샘플 크기 및 제거 실험(ablation)에 대한 VLA-MBPO의 민감도는 어느 수준인가?
  • RQ5이 프레임워크에서 누적되는 가치 차이를 완화하기 위한 이론적 보장이 존재하는가?

주요 결과

모델LIBERO_공간LIBERO_물체LIBERO_목표LIBERO_장기LIBERO_평균단일-궤적 SFT
π0.5 (SFT)78.288.685.854.676.8
VLA-MBPO87.896.692.866.885.9아니오
Δ+9.6+8.0+6.8+12.2+9.1
  • UMM-월드가 헤드 뷰와 손목 뷰 양쪽에서 더 빠른 추론 속도로 다이나믹스와 보상 예측에서 우수한 성능을 보인다.
  • VLA-MBPO는 LIBERO에서 기준보다 일관된 성능 향상을 보이며 평균 성공률과 장기 목표 성능을 개선한다.
  • 실세계 실험은 변형 가능한 물체 및 고 자유도 제어를 포함한 여러 로봇 플랫폼과 작업에서 강건한 이득을 보여준다.
  • 분기 롤아웃과 청킹된 세계 모델은 가치 격차 증가를 크게 줄여 장기 계획의 안정성을 가능하게 한다.
  • 단일 하이퍼파라미터 세트로도 다양한 작업에서 충분히 잘 작동하며 실용적 배치를 강조한다.
  • 적절한 성능을 위해 인터리브 뷰 디코딩과 사전 학습된 세계 모델의 중요성을 확인하는 제거 실험이 확인되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.