QUICK REVIEW

[論文レビュー] Genie: Generative Interactive Environments

Jake Bruce, Michael J. Dennis|arXiv (Cornell University)|Feb 23, 2024

Digital Games and Media被引用数 11

ひとこと要約

Genie は、未ラベルのインターネット動画から教師なしで学習された基盤的なワールドモデルで、画像、スケッチ、テキスト、またはプロンプトによって促される、フレームごとに操作可能な対話型環境を実現します。11Bパラメータのモデルを用います。

ABSTRACT

We introduce Genie, the first generative interactive environment trained in an unsupervised manner from unlabelled Internet videos. The model can be prompted to generate an endless variety of action-controllable virtual worlds described through text, synthetic images, photographs, and even sketches. At 11B parameters, Genie can be considered a foundation world model. It is comprised of a spatiotemporal video tokenizer, an autoregressive dynamics model, and a simple and scalable latent action model. Genie enables users to act in the generated environments on a frame-by-frame basis despite training without any ground-truth action labels or other domain-specific requirements typically found in the world model literature. Further the resulting learned latent action space facilitates training agents to imitate behaviors from unseen videos, opening the path for training generalist agents of the future.

研究の動機と目的

プロンプトから ground-truth の行動ラベルがない状態で、対話可能で遊べる仮想世界の生成を促進・実現する。
動画データから潜在的な行動空間を学習する、スケーラブルでモジュール化されたアーキテクチャを開発する。
フレーム単位の操作性と、見たことのないプロンプトやドメインへの一般化を実証する。
動画から学習した潜在的な行動が、汎用エージェントの訓練（Open Ended Learning）を支援する可能性を探る。

提案手法

3つの主要コンポーネント: フレームを離散トークンに変換するビデオトークナイザー（VQ-VAEベース）; 非教師ありで小さな離散的潜在行動集合を学習する潜在行動モデル（LAM）; 過去のトークンと潜在行動に条件付けられて未来のフレームトークンを自己回帰的に予測するダイナミクスモデル（MaskGITベース）.
アーキテクチャは、ビデオデータを効率的に扱うために、コンポーネント間で時空間（ST）トランスフォーマーを用いる；因果マスクにより、潜在行動推定と未来フレーム予測のためにシーケンス全体を処理できる。
学習は2つのフェーズで行われる。まずビデオトークナイザーを訓練し、次にビデオトークン上で潜在行動モデルとダイナミクスモデルを共同訓練する。
潜在行動空間は、小さなVQコードブック（|A|=8）で離散化され、操作性と人間が遊べることを保証する。
Platformers動画データ（約3万時間）とロボティクス動画（RT1）で実験を行い、評価指標としてFrechet Video Distance（FVD）と制御性指標Delta_t-PSNRを用いる。

実験結果

リサーチクエスチョン

RQ1大規模かつ教師なしのモデルは、未ラベルの動画から有用な潜在行動空間を学習できるか？
RQ2Genieは画像やスケッチなどのプロンプトから多様で制御可能な対話型環境を生成できるか？
RQ3潜在行動は、インターネット動画から学習して未見のプロンプトやロボティクス領域へ転用できるか？
RQ4モデルサイズとデータ量のスケーリングは可能か、汎用エージェントの基盤モデルとしての潜在的利用を支援できるか？

主な発見

Genieは11Bパラメータのモデルを訓練する（トークナイザーと潜在行動モデルを含めると総計11.0Bパラメータ；より大きいウェブサイト版が言及されている）プロンプトから対話型環境を生成できる。
Platformersで訓練されたモデル（11B）は、プロンプト全般での強い操作性を含む定性的・定量的成果を達成し、分布外の画像プロンプト（手描きスケッチ、実写真、Imagen2プロンプトなど）にも対応。
Roboticsで訓練されたモデル（2.5Bパラメータ）は、行動ラベルなしで一貫した潜在行動（例えば下・上・左）を学習し、物体相互作用と変形可能な物体の取り扱いを示す。
定量的指標はスケーリング実験で収束を示し、モデルサイズとバッチサイズを増やすと訓練損失が低下し、報告されたFVDおよびDelta_t-PSNRの傾向が、スケールアップに伴い忠実度と操作性の向上を示す。
GenieはロボティクスのテストセットでFVD 82.7を達成し、複数の開始フレームにわたって一貫した潜在行動挙動を示す。
このアプローチは、インターネット動画から学習した潜在行動を未知の強化学習環境でのポリシー模倣に活用できることを示し、少量の専門家データが潜在行動を実世界の行動へマッピングしてポリシーコピーを可能にするというエビデンスがある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。