QUICK REVIEW

[논문 리뷰] Genie: Generative Interactive Environments

Jake Bruce, Michael J. Dennis|arXiv (Cornell University)|2024. 02. 23.

Digital Games and Media인용 수 11

한 줄 요약

Genie는 라벨이 없는 인터넷 비디오에서 비지도 학습으로 훈련된 기본 세계 모델로, 이미지, 스케치, 텍스트 또는 프롬프트에 의해 제시된 프레임별, 행동 제어 가능한 대화형 환경을 가능하게 하며, 11B 매개변수 모델을 갖습니다.

ABSTRACT

We introduce Genie, the first generative interactive environment trained in an unsupervised manner from unlabelled Internet videos. The model can be prompted to generate an endless variety of action-controllable virtual worlds described through text, synthetic images, photographs, and even sketches. At 11B parameters, Genie can be considered a foundation world model. It is comprised of a spatiotemporal video tokenizer, an autoregressive dynamics model, and a simple and scalable latent action model. Genie enables users to act in the generated environments on a frame-by-frame basis despite training without any ground-truth action labels or other domain-specific requirements typically found in the world model literature. Further the resulting learned latent action space facilitates training agents to imitate behaviors from unseen videos, opening the path for training generalist agents of the future.

연구 동기 및 목표

그라운드 트루스 행동 라벨이 없는 프롬프트로부터 인터랙티브하고 재생 가능한 가상 세계의 생성을 자극하고 가능하게 한다.
비디오 데이터로부터 잠재 행동 공간을 학습하는 확장 가능하고 모듈식 아키텍처를 개발한다.
프레임별 제어 가능성과 보지 못한 프롬프트 및 도메인으로의 일반화를 시연한다.
비디오로부터 학습된 잠재 행동의 가능성을 탐구하여 일반지향 에이전트(Open Ended Learning) 학습을 지원한다.

제안 방법

세 가지 주요 구성요소: 프레임을 이산 토큰으로 토큰화하는 비디오 토크나이저(VQ-VAE 기반); 비지도 방식으로 소수의 이산 잠재 행동 집합을 학습하는 잠재 행동 모델(LAM); 과거 토큰과 잠재 행동에 조건화되어 미래 프레임 토큰을 자동회귀적으로 예측하는 다이나믹스 모델(MaskGIT 기반).
아키텍처는 비디오 데이터를 효율적으로 처리하기 위해 구성요소 간에 시공간(ST) 트랜스포머를 사용하며, 원인-결과 마스크(causal mask)가 잠재 행동 추론과 미래 프레임 예측을 위해 전체 시퀀스를 처리하게 한다.
학습은 두 단계로 수행된다: 먼저 비디오 토크나이저를 훈련하고, 그다음 비디오 토큰에서 잠재 행동 모델과 다이나믹스 모델을 공동으로 훈련한다.
잠재 행동 공간은 컨트롤 가능성과 인간이 플레이하기 쉽도록 작은 VQ 코드북(|A|=8)으로 이산화된다.
실험은 Platformers 비디오 데이터(약 30k 시간)와 로봇 비디오(RT1)에서 수행되며, 평가 지표로 Frechet Video Distance(FVD)와 제어 가능성 지표 Delta_t-PSNR를 사용한다.

실험 결과

연구 질문

RQ1대규모의 비지도 모델이 라벨이 없는 비디오로부터 사용할 수 있는 잠재 행동 공간을 학습할 수 있는가?
RQ2Genie가 이미지나 스케치와 같은 프롬프트로 다양하고 제어 가능한 인터랙티브한 환경을 생성할 수 있는가?
RQ3인터넷 비디오에서 학습된 잠재 행동이 보지 못한 프롬프트와 로봇 도메인으로 이전될 수 있는가?
RQ4모델 크기와 데이터 면에서 접근법이 확장 가능하며 일반지향 에이전트를 위한 기반 모델로의 잠재적 사용을 지원할 수 있는가?

주요 결과

Genie는 토크나이저와 잠재 행동 모델을 포함하여 총 11.0B 매개변수인 11B-파라미터 모델을 훈련시키고, 프롬프트에서 인터랙티브한 환경을 생성할 수 있다(더 큰 웹사이트 변형 언급).
Platformers-트레이닝된 모델(11B)은 프롬프트 전반에 걸친 강한 제어 가능성 및 프롬프트 외 이미지 프롬프트(예: 수작업 스케치, 실제 사진, Imagen2 프롬프트)를 포함한 질적·양적 결과를 달성한다.
로봇공학 트레이닝 모델(2.5B 매개변수)은 행동 라벨 없이도 일관된 잠재 행동(예: 아래로, 위로, 왼쪽)을 학습하고 물체 상호작용 및 변형 가능 물체 처리를 시연한다.
정량적 지표는 스케일링 실험에서 수렴을 보이며, 모델 크기와 배치 크기를 늘리면 학습 손실이 감소하고, 보고된 FVD 및 Delta_t-PSNR 추세는 규모가 커질수록 충실도와 제어 가능성이 향상됨을 시사한다.
Genie는 로봇 테스트 세트에서 FVD 82.7을 달성하고 여러 시작 프레임에서 일관된 잠재 행동 동작을 시연한다.
이 접근법은 인터넷 비디오에서 학습된 잠재 행동을 이용해 보지 못한 강화학습 환경에서 정책을 모방하도록 하며, 소량의 전문가 데이터가 잠재 행동을 실제 행동으로 매핑해 정책 복제에 도움이 된다는 근거를 제시한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.