[논문 리뷰] WorldDreamer: Towards General World Models for Video Generation via Predicting Masked Tokens
WorldDreamer는 트랜스포머 프레임워크 내에서 마스킹된 시각 토큰을 예측하여 비디오 생성을 위한 일반 세계 모델을 학습하고, 다양한 장면에서 텍스트-비디오, 이미지-비디오, 편집 및 액션 조건 비디오 생성을 가능하게 한다.
World models play a crucial role in understanding and predicting the dynamics of the world, which is essential for video generation. However, existing world models are confined to specific scenarios such as gaming or driving, limiting their ability to capture the complexity of general world dynamic environments. Therefore, we introduce WorldDreamer, a pioneering world model to foster a comprehensive comprehension of general world physics and motions, which significantly enhances the capabilities of video generation. Drawing inspiration from the success of large language models, WorldDreamer frames world modeling as an unsupervised visual sequence modeling challenge. This is achieved by mapping visual inputs to discrete tokens and predicting the masked ones. During this process, we incorporate multi-modal prompts to facilitate interaction within the world model. Our experiments show that WorldDreamer excels in generating videos across different scenarios, including natural scenes and driving environments. WorldDreamer showcases versatility in executing tasks such as text-to-video conversion, image-tovideo synthesis, and video editing. These results underscore WorldDreamer's effectiveness in capturing dynamic elements within diverse general world environments.
연구 동기 및 목표
- 게임/로봇공학을 넘어 다양한 현실 세계의 역학을 다룰 수 있는 일반 세계 모델의 필요성을 동기 부여한다.
- 대형 언어 모델에서 영감을 얻은 비디오 모델링을 위한 토큰 예측 패러다임을 제안한다.
- 비디오에서 운동과 물리학을 효율적으로 학습하기 위한 공간-시간 패치 단위 트랜스포머(STPT)를 개발한다.
- 비디오 생성과 편집을 안내하기 위해 다중 모드 프롬프트(텍스트와 액션)를 가능하게 한다.
- 자연 풍경, 운전 시나리오 및 다양한 생성/편집 작업에 걸친 다재다능성을 보여준다.
제안 방법
- VQGAN으로 시각 정보를 이산 토큰으로 인코딩하고 마스킹된 토큰 예측을 모델링한다.
- 텍스트를 T5 임베딩으로 표현하고 액션은 MLP로 표현하여 다중 모드 프롬프트를 형성한다.
- 국소화된 시공간 패치 내에서 주의를 기울이고 다중 모드 프롬프트와의 교차 주의를 적용하기 위해 공간-시간 패치 단위 트랜스포머(STPT)를 사용한다.
- 코사인 계획에 따른 동적 마스킹 전략으로 병렬 토큰 예측을 가능하게 하고 정보 누출을 줄이도록 학습한다.
- 비마스킹 토큰 및 다중 모드 프롬프트를 조건으로 마스킹된 토큰을 예측하기 위해 교차 엔트로피 손실로 최적화한다.
- 자체 수집 데이터와 nuScenes에서 전체 STPT 매개변수로 미세조정하여 시공간 이해를 향상시킨다.
실험 결과
연구 질문
- RQ1시각 토큰에서 학습된 일반 세계 모델이 다양한 실제 세계 풍경에서 역학과 물리를 예측할 수 있을까?
- RQ2다중 모드 프롬프트(텍스트 및 액션)를 통합하면서 STPT가 시공간 역동성을 포착하는 효과는 어느 정도인가?
- RQ3모델이 텍스트-투-비디오, 이미지-투-비디오, 인페인팅, 스타일링, 액션-투-비디오 등의 다양한 생성/편집 작업을 지원할 수 있는가?
- RQ4병렬 마스킹 토큰 예측이 확산 기반 방법이나 자기회귀 접근법에 비해 속도와 품질 면에서 이점을 제공하는가?
주요 결과
- WorldDreamer는 자연 풍경과 운전 시나리오에서 비디오를 생성한다.
- 모델은 텍스트-투-비디오, 이미지-투-비디오, 비디오 편집 및 액션-투-비디오 생성을 지원한다.
- 이미지/비디오 데이터를 함께 사용하고 다중 모드 프롬프트를 활용한 학습은 시공간 이해를 향상시킨다.
- 추론은 병렬 마스킹 토큰 예측을 사용하여 확산 기반 방법보다 약 3배 빠른 디코딩 속도를 달성한다.
- CFG 가이던스가 추론 시 생성 품질을 향상시킨다.
- 단일 A800 GPU에서 192x320 해상도에 24프레임을 3초 만에 생성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.