QUICK REVIEW

[논문 리뷰] WestWorld: A Knowledge-Encoded Scalable Trajectory World Model for Diverse Robotic Systems

Yuchen Wang, Jiangtao Kong|arXiv (Cornell University)|2026. 03. 15.

Autonomous Vehicle Technology and Safety인용 수 0

한 줄 요약

WestWorld는 시스템 인지된 Mixture-of-Experts 궤적 세계 모델을 도입하여 형태학 정보 기반 구조를 임베딩하고 다양한 로봇 간 역학 학습을 확장하며 제로샷 및 소수샷 일반화와 향상된 다운스트림 제어를 가능하게 한다. 89개의 환경에서 사전 학습하고 실제 Go1 배치를 시연한다.

ABSTRACT

Trajectory world models play a crucial role in robotic dynamics learning, planning, and control. While recent works have explored trajectory world models for diverse robotic systems, they struggle to scale to a large number of distinct system dynamics and overlook domain knowledge of physical structures. To address these limitations, we introduce WestWorld, a knoWledge-Encoded Scalable Trajectory World model for diverse robotic systems. To tackle the scalability challenge, we propose a novel system-aware Mixture-of-Experts (Sys-MoE) that dynamically combines and routes specialized experts for different robotic systems via a learnable system embedding. To further enhance zero-shot generalization, we incorporate domain knowledge of robot physical structures by introducing a structural embedding that aligns trajectory representations with morphological information. After pretraining on 89 complex environments spanning diverse morphologies across both simulation and real-world settings, WestWorld achieves significant improvements over competitive baselines in zero- and few-shot trajectory prediction. Additionally, it shows strong scalability across a wide range of robotic environments and significantly improves performance on downstream model-based control for different robots. Finally, we deploy our model on a real-world Unitree Go1, where it demonstrates stable locomotion performance (see our demo on the website: https://westworldrobot.github.io/). The code will be available upon publication.

연구 동기 및 목표

이종 로봇 형태학과 센서/액추에이터 다이내믹스 전반에 걸친 확장 가능한 궤적 세계 모델의 필요성을 제시한다.
전역 모델을 공유하면서 로봇별로 역학을 특화하기 위한 시스템 인식 혼합 전문가 아키텍처를 제안한다.
로봇 형태학에 맞춰 궤적 표현을 정렬하는 구조 기반 임베딩을 통합하여 일반화를 개선한다.
대규모의 다양한 데이터셋에서 사전 학습하고 제로샷, 퓨샷, 확장성 및 다운스트림 모델 기반 제어 성능을 평가한다.
Unitree Go1에서의 실세계 배치를 시연하여 실용적 적용 가능성을 검증한다.

제안 방법

궤적 채널을 이산 토큰으로 토큰화하고 정규화한다.
관절식 바디 운동학 트리로부터 얻은 지식 인코딩 구조 임베딩을 통해 형태 정보를 주입한다.
학습 가능한 시스템 임베딩을 갖춘 시스템 인식 Mixture-of-Experts(Sys-MoE)를 사용하여 여러 특화 역학 전문가 간 경로를 조정한다.
Sys-MoE 블록 앞에 주의 기반 상태 집계 및 행동 조건 크로스 어텐션을 적용한다.
시스템 조건화 라우팅 메커니즘을 갖춘 다수의 Sys-MoE 블록을 쌓아 단일 순전파에서 다단계 궤적을 예측한다.
이산화된 궤적 상태에 대해 다음 토큰 크로스 엔트로피로 학습한다.

실험 결과

연구 질문

RQ1시스템 인지 MoE 모델이 다양한 로봇 형태학 간의 경사 간섭 없이 역학 학습을 확장할 수 있는가?
RQ2형태학 정보를 반영한 구조 임베딩의 도입이 미지의 로봇에 대한 제로샷 및 소수샷 궤적 예측을 향상시키는가?
RQ3기준 알고리즘과 비교하여 다운스트림 모델 기반 제어에서 WestWorld의 성능은 어떠한가?
RQ4사전 학습 환경의 수가 증가할 때 이 접근법은 확장 가능한가?
RQ5모델을 실제 로봇 플랫폼에 효과적으로 전이할 수 있는가?

주요 결과

WestWorld는 미지의 보행자, 점프 로봇 및 실제 Franka 설정에서 기준선보다 제로샷 장기 예측이 가장 우수하다.
실제 로봇에서의 소수샷 적응은 사전 학습으로 강한 성능 향상을 보인다.
Sys-MoE 라우터는 거의 희소한 시스템 의존적 전문가 사용을 학습하여 형태학별 특화 역학을 보여준다.
사전 학습은 Walker2D, Hopper, Unitree Go1 전반에서 다운스트림 MPPI 제어를 개선하는 강력한 초기화를 제공한다.
모델은 시뮬레이션 및 실제 환경 89개로 확장되며 환경 수가 증가해도 정확도를 유지하고 확장성 측면에서 TrajWorld를 능가한다.
지식 증류와 시뮬레이션 데이터를 활용한 실세계 Unitree Go1 배치는 MPPI 제어에서 안정적인 보행을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.