QUICK REVIEW

[논문 리뷰] WorldCompass: Reinforcement Learning for Long-Horizon World Models

Zehan Wang, Tengfei Wang|arXiv (Cornell University)|2026. 02. 09.

Human Pose and Action Recognition인용 수 0

한 줄 요약

WorldCompass는 clip 수준 롤아웃, 행동 following과 시각 품질에 대한 보상 보완, 부정 인식 미세 조정으로 긴 시점의 상호작용 월드 모델을 개선하는 RL 포스트-트레이닝 프레임워크로, WorldPlay에서 상당한 이점을 달성합니다.

ABSTRACT

This work presents WorldCompass, a novel Reinforcement Learning (RL) post-training framework for the long-horizon, interactive video-based world models, enabling them to explore the world more accurately and consistently based on interaction signals. To effectively "steer" the world model's exploration, we introduce three core innovations tailored to the autoregressive video generation paradigm: 1) Clip-level rollout Strategy: We generate and evaluate multiple samples at a single target clip, which significantly boosts rollout efficiency and provides fine-grained reward signals. 2) Complementary Reward Functions: We design reward functions for both interaction-following accuracy and visual quality, which provide direct supervision and effectively suppress reward-hacking behaviors. 3) Efficient RL Algorithm: We employ the negative-aware fine-tuning strategy coupled with various efficiency optimizations to efficiently and effectively enhance model capacity. Evaluations on the SoTA open-source world model, WorldPlay, demonstrate that WorldCompass significantly improves interaction accuracy and visual fidelity across various scenarios.

연구 동기 및 목표

비디오 기반 월드 모델의 포스트-트레이닝을 동기화시켜 긴 시점 상호작용 충실도를 향상시키려는 목표.
자기회귀 비디오 생성 및 상호작용 신호에 맞춘 RL 프레임워크를 개발
긴 시퀀스에 대한 탐색 효율성과 보상 신호의 세분화를 개선
보상 해킹을 완화하면서도 행동 추종 정확도와 시각 품질의 균형을 맞춤

제안 방법

대상 클립에 대해 prefixes를 재사용하면서 다중 롤아웃을 생성하고 평가하는 clip-수준 롤아웃 도입
상호작용 추종 정확도와 시각 품질(HPSv3)의 두 가지 보상 함수를 설계
확산 기반 비디오 모델에 대한 효율성 최적화를 갖춘 부정 인식 RL 알고리즘을 사용
훈련 안정화를 위해 Best-of-N 샘플링과 커리큘럼 방식의 점진적 대상 클립 인덱싱 적용
KL 정규화를 피하고 EMA 업데이트와 더 낮은 학습률로 안정적 최적화를 수행

실험 결과

연구 질문

RQ1포스트-트레이닝 RL이 사전 학습을 넘어 자 autoregressive, 상호작용이 긴 시점의 월드 모델을 개선할 수 있는가?
RQ2클립 수준의 롤아웃과 이중 보상이 시퀀스 수준 보상보다 더 미세하고 정보가 풍부한 피드백을 제공하는가?
RQ3과도한 과적합이나 보상 해킹 없이 RL로 diffusion 기반 월드 모델을 효율적으로 학습하는 방법은?
RQ4WorldCompass가 다양한 WorldPlay 변형 및 행동 복잡성에 대해 일반화되는가?

주요 결과

WorldCompass는 짧은 시점, 중간 시점, 긴 시점 모두에서 기본 및 복합 행동에 대해 상호작용 정확도를 크게 향상시킨다.
복합 행동의 경우 WorldCompass로 인해 행동 정확도가 약 20%에서 약 55%로 개선되었다.
기본 행동의 경우도 약 10퍼센트 포인트의 향상을 보였다.
시각 품질(HPSv3) 역시 WorldCompass로 향상되어 프롬프트에 대한 충실도와 정렬이 개선되었다.
클립 수준의 롤아웃이 행동 추종 및 시각 품질 모두를 주도하는 데 있어 샘플 수준 롤아웃보다 우수한 성능을 보인다.
효율성 전략(Best-of-N, 타임스텝 부분 샘플링, 점진적 클립 길이)이 성능 저하 없이 학습 시간을 최대 약 50%까지 단축한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.