Skip to main content
QUICK REVIEW

[論文レビュー] Sora as a World Model? A Complete Survey on Text-to-Video Generation

Fachrina Dewi Puspitasari, Chaoning Zhang|arXiv (Cornell University)|Mar 8, 2024
Artificial Intelligence in Games被引用数 10
ひとこと要約

本調査は、テキストから動画生成モデルが世界モデルとしてのアプローチをどのように評価するかを検討し、250+ studies をレビューし、コア要素、実現技術、今後の方向性を概説します。

ABSTRACT

The evolution of video generation from text, from animating MNIST to simulating the world with Sora, has progressed at a breakneck speed. Here, we systematically discuss how far text-to-video generation technology supports essential requirements in world modeling. We curate 250+ studies on text-based video synthesis and world modeling. We then observe that recent models increasingly support spatial, action, and strategic intelligences in world modeling through adherence to completeness, consistency, invention, as well as human interaction and control. We conclude that text-to-video generation is adept at world modeling, although homework in several aspects, such as the diversity-consistency trade-offs, remains to be addressed.

研究の動機と目的

  • 知覚-行動システム内で世界モデルとして機能するために、ビジョンモデルが必須とすべき要素を特定する。
  • テキストから動画生成の進歩が、世界モデル化のための空間的、行動的、戦略的知性をどのように支援するかを分析する。
  • T2Vにおける世界モデル機能を強化するアーキテクチャ、実現技術、および制御機構を統合する。
  • 今後の研究を導くために、データセット、評価実践、および実世界の応用について議論する。

提案手法

  • 文献収集とスクリーニングを導くためにPRISMAフレームワークを採用する。
  • AAAI、ACL、CVPR、ECCV、ICCV、ICLR、IJCAI、NAACL、NeurIPS、ACM Multimedia、IEEE、arXiv などの主要な場で、text-to-video および world-model 関連の研究を検索する。
  • 定義された除外基準を用いて、要約と本文精査で250+件の論文を整理する。
  • 世界モデルの要件の視点からT2Vモデルを分析し、アーキテクチャ、実現技術、制御を網羅する。
  • データセット、評価、応用にも踏み込み、現在の能力とギャップを把握する。
  • 堅牢な世界モデル挙動へ向けてT2Vを前進させる将来の方向性を提供する。

実験結果

リサーチクエスチョン

  • RQ1現在のテキストから動画モデルは、知覚-行動システム内の世界モデルとしてどの程度見なすことができるか。
  • RQ2T2Vモデルが世界モデルとして機能するために必要なコア要素と能力は何か(例:空間的、行動的、戦略的知性)?
  • RQ3どのような実現技術とアーキテクチャの選択が、T2V生成における世界モデルの目的を最も効果的に支援するか?
  • RQ4主要な課題は何か(例:多様性と一貫性のトレードオフ)そしてそれらをどう緩和できるか?
  • RQ5世界モデルへのT2Vの進展を示す実用的なデータセット、評価、応用は何か?

主な発見

  • テキストから動画モデルは、世界モデルの目標と整合する空間的、行動的、戦略的知性をますます支援する。
  • 現在のT2Vシステムは、拡散トランスフォーマーや時系列処理機構といったアーキテクチャの選択を通じて、高い視覚的忠実度と時間的一貫性を示す。
  • テキストエンコーダ、ビジョンバックボーン、拡散ベース生成、時間モデル化など、世界モデル機能を支える広範な技術エネーブラーのエコシステム。
  • 多様性と一貫性のバランス、長期的推論と相互作用ダイナミクスの堅牢な実現など、課題は残る。
  • データセット、評価プロトコル、応用は世界モデルパラダイムを反映するよう進化しており、将来の改善と統合を導く。
  • この調査は広範な研究(250+ papers)を統合し、T2Vを世界モデルとしての一貫した視点を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。