[论文解读] WestWorld: A Knowledge-Encoded Scalable Trajectory World Model for Diverse Robotic Systems
WestWorld 引入一个系统感知的混合专家轨迹世界模型,嵌入形态信息化结构以扩展跨多样机器人动态学习的能力,实现强零-shot与少样本泛化,以及改进的下游控制。它在 89 个环境上进行预训练并在真实世界的 Go1 上展示部署。
Trajectory world models play a crucial role in robotic dynamics learning, planning, and control. While recent works have explored trajectory world models for diverse robotic systems, they struggle to scale to a large number of distinct system dynamics and overlook domain knowledge of physical structures. To address these limitations, we introduce WestWorld, a knoWledge-Encoded Scalable Trajectory World model for diverse robotic systems. To tackle the scalability challenge, we propose a novel system-aware Mixture-of-Experts (Sys-MoE) that dynamically combines and routes specialized experts for different robotic systems via a learnable system embedding. To further enhance zero-shot generalization, we incorporate domain knowledge of robot physical structures by introducing a structural embedding that aligns trajectory representations with morphological information. After pretraining on 89 complex environments spanning diverse morphologies across both simulation and real-world settings, WestWorld achieves significant improvements over competitive baselines in zero- and few-shot trajectory prediction. Additionally, it shows strong scalability across a wide range of robotic environments and significantly improves performance on downstream model-based control for different robots. Finally, we deploy our model on a real-world Unitree Go1, where it demonstrates stable locomotion performance (see our demo on the website: https://westworldrobot.github.io/). The code will be available upon publication.
研究动机与目标
- 为跨异构机器人形态与传感/执行器动力学的可扩展轨迹世界模型的需求提供动机。
- 提出一个系统感知的混合专家架构,以便在共享全局模型的同时对每个机器人专门化动力学。
- 纳入基于结构的嵌入,使轨迹表示与机器人形态对齐,以提升泛化能力。
- 在大规模、多样化数据集上进行预训练,并评估零-shot、少-shot、可扩展性以及下游基于模型的控制性能。
- 在 Unitree Go1 上进行真实世界部署以验证实际应用性。
提出的方法
- 将轨迹通道标记化并规范化为离散 token。
- 通过来自关节-树的结构化知识嵌入注入形态信息。
- 使用带可学习系统嵌入的系统感知混合专家(Sys-MoE),在多个专门化的动力学专家之间进行路由。
- 在 Sys-MoE 模块之前使用基于注意力的状态聚合和条件动作的交叉注意力。
- 堆叠多个 Sys-MoE 模块,采用系统条件路由机制,在单次前向传播中预测多步轨迹。
- 以离散化轨迹状态的下一个 token 交叉熵进行训练。
实验结果
研究问题
- RQ1一个带系统感知的 MoE 模型能否在不产生梯度干扰的情况下,将动力学学习扩展到许多不同的机器人形态?
- RQ2将形态信息化结构嵌入纳入后, unseen 机器人在零-shot 和少-shot 轨迹预测方面是否有改进?
- RQ3在下游基于模型的控制方面,与基线相比,WestWorld 的表现如何?
- RQ4当预训练环境数量增加时,该方法是否具备可扩展性?
- RQ5模型能否有效迁移到现实世界的机器人平台?
主要发现
- 在未见 walkers、hopper 与真实世界 Franka 设置中,WestWorld 实现了最佳的零-shot 长期预测,相较基线表现优越。
- 在真实机器人上的少-shot 适应显示出强劲的性能提升,得益于预训练。
- Sys-MoE 路由器学习到接近稀疏的、系统相关的专家使用,体现出对形态的专门化动力学。
- 预训练提供了强有力的初始化,提升 Walker2D、Hopper 与 Unitree Go1 的下游 MPPI 控制性能。
- 方法可扩展至 89 个环境(仿真与真实世界),并在环境数量增加时保持精度,且在可扩展性方面优于 TrajWorld。
- 在真实世界 Unitree Go1 上通过蒸馏和模拟数据实现 MPPI 控制的稳定步态。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。