[论文解读] Towards Practical World Model-based Reinforcement Learning for Vision-Language-Action Models
论文提出 VLA-MBPO:一种基于世界模型的实用强化学习框架,用于微调视觉-语言-动作模型,使用统一多模态模型骨干、交错视图解码以实现多视角一致性,以及分块分支回放以缓解累积误差。
Vision-Language-Action (VLA) models show strong generalization for robotic control, but finetuning them with reinforcement learning (RL) is constrained by the high cost and safety risks of real-world interaction. Training VLA models in interactive world models avoids these issues but introduces several challenges, including pixel-level world modeling, multi-view consistency, and compounding errors under sparse rewards. Building on recent advances across large multimodal models and model-based RL, we propose VLA-MBPO, a practical framework to tackle these problems in VLA finetuning. Our approach has three key design choices: (i) adapting unified multimodal models (UMMs) for data-efficient world modeling; (ii) an interleaved view decoding mechanism to enforce multi-view consistency; and (iii) chunk-level branched rollout to mitigate error compounding. Theoretical analysis and experiments across simulation and real-world tasks demonstrate that VLA-MBPO significantly improves policy performance and sample efficiency, underscoring its robustness and scalability for real-world robotic deployment.
研究动机与目标
- 解决现实世界强化学习在VLA模型中的数据低效和安全性问题。
- 提出一个统一多模态世界模型(UMM)骨干,能够联合预测视觉与奖励。
- 通过交错视图解码确保多视角的一致性。
- 通过分块分支回放来缓解误差累积。
- 在仿真和现实世界任务中展示策略性能和数据效率的提升。
提出的方法
- 将预训练的统一多模态模型(UMM)作为世界模型骨干,从像素输入预测下一个观测与奖励。
- 将连续动作离散化为标记,并通过带分块动作的 T_theta 生成下一个观测,实现端到端的 UMM 使用。
- 实现交错视图解码以在头部视图和腕部视图观测之间强制跨视角一致性。
- 通过分块分支回放以通过短期回放规划和阶段性策略更新减少累积误差。
- 采用 Flow-Noise(PPO 的变体)实现稳定的策略优化,并添加用于价值估计 V_phi(s,l) 的 MLP 头。
- 给出理论界限,显示通过分支回放和分块世界模型可降低价值差距。
实验结果
研究问题
- RQ1UMM 基于世界模型在多视角动力学和奖励预测方面能否实现良好表现?
- RQ2与基线相比,VLA-MBPO 在仿真中的样本效率和策略性能是否提升?
- RQ3VLA-MBPO 能否在多样化任务的真实世界机器人任务中实现有效迁移?
- RQ4回放长度、样本量和消融实验对 VLA-MBPO 的结果有多敏感?
- RQ5在该框架下存在怎样的理论保证以缓解由累积误差引起的价值差距?
主要发现
| 模型 | LIBERO_Spatial | LIBERO_Object | LIBERO_Goal | LIBERO_Long | LIBERO_Avg | One-Trajectory SFT |
|---|---|---|---|---|---|---|
| π0.5 (SFT) | 78.2 | 88.6 | 85.8 | 54.6 | 76.8 | Yes |
| VLA-MBPO | 87.8 | 96.6 | 92.8 | 66.8 | 85.9 | No |
| Δ | +9.6 | +8.0 | +6.8 | +12.2 | +9.1 | – |
- UMM-World 在头部视图和腕部视图上的动力学与奖励预测均优于视频世界基线,推理速度更快。
- VLA-MBPO 在 LIBERO 基准上相较基线保持稳定的性能提升,平均成功率和长时任务表现改善。
- 现实世界实验在多个人体机器人平台和任务上表现出稳健提升,包括可变形和高自由度操作。
- 带分支回放与分块世界模型显著降低价值差距的增长,使长时规划更稳定。
- 单一超参数集合在不同任务间表现良好,凸显实际部署的优势。
- 消融实验确认交错视图解码和预训练世界模型对性能的重要性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。