[논문 리뷰] Towards Practical World Model-based Reinforcement Learning for Vision-Language-Action Models
논문은 Unified Multimodal Model 백본을 사용하고 멀티뷰 일관성을 위한 Interleaved view decoding, 그리고 분기 롤아웃을 통한 누적 오차 완화로 Vision-Language-Action(VLA) 모델의 미세 조정을 위한 실용적인 세계 모델 기반 RL 프레임워크인 VLA-MBPO를 소개한다.
Vision-Language-Action (VLA) models show strong generalization for robotic control, but finetuning them with reinforcement learning (RL) is constrained by the high cost and safety risks of real-world interaction. Training VLA models in interactive world models avoids these issues but introduces several challenges, including pixel-level world modeling, multi-view consistency, and compounding errors under sparse rewards. Building on recent advances across large multimodal models and model-based RL, we propose VLA-MBPO, a practical framework to tackle these problems in VLA finetuning. Our approach has three key design choices: (i) adapting unified multimodal models (UMMs) for data-efficient world modeling; (ii) an interleaved view decoding mechanism to enforce multi-view consistency; and (iii) chunk-level branched rollout to mitigate error compounding. Theoretical analysis and experiments across simulation and real-world tasks demonstrate that VLA-MBPO significantly improves policy performance and sample efficiency, underscoring its robustness and scalability for real-world robotic deployment.
연구 동기 및 목표
- VLA 모델의 실제 환경에서의 데이터 비효율성과 안전성 문제를 해결한다.
- 시각 정보와 보상을 함께 예측하는 통합 멀티모달 세계 모델(UMM) 백본을 제안한다.
- Interleaved view decoding을 통해 다중 뷰 간의 일관성을 보장한다.
- 분기 수준의 롤아웃으로 오차 누적을 완화한다.
- 시뮬레이션 및 실제 작업에서 정책 성능과 데이터 효율성의 향상을 시연한다.
제안 방법
- 픽셀 입력에서 다음 관측치와 보상을 예측하기 위해 사전 학습된 Unified Multimodal Model(UMM)을 세계 모델 백본으로 사용한다.
- 연속 행동을 토큰으로 이산화하고 chunked 행동으로 T_theta를 통해 다음 관측치를 생성하여 엔드-투-엔드 UMM 사용이 가능하도록 한다.
- 헤드 뷰와 손목 뷰 관측 사이의 크로스뷰 일관성을 보장하기 위해 인터리브 뷰 디코딩을 구현한다.
- 짧은 롤아웃 계획 및 단계적 정책 업데이트를 통해 누적 오차를 줄이기 위해 분기 수준의 롤아웃을 적용한다.
- 안정적인 정책 최적화를 위해 Flow-Noise(PPO 변형)를 채택하고 값 추정을 위한 MLP 헤드 V_phi(s,l)를 추가한다.
- 분기 롤아웃과 청킹된 세계 모델로 가치 격차를 감소시키는 이론적 경계를 제시한다.
실험 결과
연구 질문
- RQ1UMM 기반 세계 모델이 VLA 작업의 다중 뷰 동역학과 보상을 얼마나 잘 예측하는가?
- RQ2VLA-MBPO가 시뮬레이션에서 기준 방법들보다 샘플 효율성과 정책 성능을 개선하는가?
- RQ3다양한 작업에서 VLA-MBPO가 실제 로봇 공학으로 효과적으로 이전될 수 있는가?
- RQ4롤아웃 길이, 샘플 크기 및 제거 실험(ablation)에 대한 VLA-MBPO의 민감도는 어느 수준인가?
- RQ5이 프레임워크에서 누적되는 가치 차이를 완화하기 위한 이론적 보장이 존재하는가?
주요 결과
| 모델 | LIBERO_공간 | LIBERO_물체 | LIBERO_목표 | LIBERO_장기 | LIBERO_평균 | 단일-궤적 SFT |
|---|---|---|---|---|---|---|
| π0.5 (SFT) | 78.2 | 88.6 | 85.8 | 54.6 | 76.8 | 예 |
| VLA-MBPO | 87.8 | 96.6 | 92.8 | 66.8 | 85.9 | 아니오 |
| Δ | +9.6 | +8.0 | +6.8 | +12.2 | +9.1 | – |
- UMM-월드가 헤드 뷰와 손목 뷰 양쪽에서 더 빠른 추론 속도로 다이나믹스와 보상 예측에서 우수한 성능을 보인다.
- VLA-MBPO는 LIBERO에서 기준보다 일관된 성능 향상을 보이며 평균 성공률과 장기 목표 성능을 개선한다.
- 실세계 실험은 변형 가능한 물체 및 고 자유도 제어를 포함한 여러 로봇 플랫폼과 작업에서 강건한 이득을 보여준다.
- 분기 롤아웃과 청킹된 세계 모델은 가치 격차 증가를 크게 줄여 장기 계획의 안정성을 가능하게 한다.
- 단일 하이퍼파라미터 세트로도 다양한 작업에서 충분히 잘 작동하며 실용적 배치를 강조한다.
- 적절한 성능을 위해 인터리브 뷰 디코딩과 사전 학습된 세계 모델의 중요성을 확인하는 제거 실험이 확인되었다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.