Skip to main content
QUICK REVIEW

[論文レビュー] Text-To-4D Dynamic Scene Generation

Uriel Singer, Shelly Sheynin|arXiv (Cornell University)|Jan 26, 2023
Human Motion and Animation被引用数 23
ひとこと要約

MAV3Dは、4Dニューラル放射場をテキストから最適化することで、3D/4Dのトレーニングデータを必要とせず、テキストから動的な3Dシーンを生成します。視点と時間の一貫性を保つ出力を得られ、任意の視点からレンダリングし、3D環境に統合できます。

ABSTRACT

We present MAV3D (Make-A-Video3D), a method for generating three-dimensional dynamic scenes from text descriptions. Our approach uses a 4D dynamic Neural Radiance Field (NeRF), which is optimized for scene appearance, density, and motion consistency by querying a Text-to-Video (T2V) diffusion-based model. The dynamic video output generated from the provided text can be viewed from any camera location and angle, and can be composited into any 3D environment. MAV3D does not require any 3D or 4D data and the T2V model is trained only on Text-Image pairs and unlabeled videos. We demonstrate the effectiveness of our approach using comprehensive quantitative and qualitative experiments and show an improvement over previously established internal baselines. To the best of our knowledge, our method is the first to generate 3D dynamic scenes given a text description.

研究の動機と目的

  • 自然言語プロンプトから直接動的な3Dシーンの作成を促す。
  • テキスト-動画事前学習を用いて最適化できる4Dシーン表現を開発する。
  • ペアになった(テキスト、4D)データを必要としないトレーニングレシピを提案する。
  • 忠実度を高めるための多段階の静的から動的への最適化と超解像リファインを組み込む。

提案手法

  • HexPlane(空間と時間にわたる特徴の六面)で動的4Dシーンを表現し、マルチ解像度グリッドを拡張する。
  • SDS-T(Score Distillation Sampling)を用いた事前学習済みのテキスト-動画拡散モデルで4Dシーンを監督し、シーンパラメータを更新する。
  • 静的から動的への二段階最適化を採用する:まずT2I事前学習で静的3Dシーンを適合させ、次にT2V事前学習で4Dへ拡張する。
  • モーション正則化、ダイナミックなカメラ、ガウスでのアニーリング、TV損失など、時間認識の正則化項を導入して運動の安定性と現実感を高める。
  • 高解像度レンダリングを生成するために、事前学習済みのビデオ超解像モジュールを用いた最終的な超解像微調整(SRFT)を適用する。

実験結果

リサーチクエスチョン

  • RQ1テキスト記述を用いて任意の角度から閲覧可能な動的な3Dシーン(4D)を生成できるか。
  • RQ2対になる(テキスト、4D)データなしで、拡散ベースのテキスト-動画事前学習をどう活用して4D NeRF表現を監督できるか。
  • RQ3静的から動的へのトレーニング段階とモーション正則化が、生成される4Dシーンの品質と現実感に与える影響は何か。
  • RQ4本法はより高い解像度へスケールできるか、時間的一貫性のある高忠実度運動を生成できるか。

主な発見

  • MAV3Dは、R-Precisionにおいて2Dビデオフレームを3D表現に変換する素朴なベースラインを上回り、ビデオ品質、プロンプト整合性、運動リアリズムの点で人間評価者に好まれた。
  • SRFTと時間認識正則化を組み込んだ静的から動的への学習は、動的NeRFsのエンドツーエンドSDSよりも、より現実的な運動とプロンプトへの整合性をもたらす。
  • 動的カメラ運動とFPSサンプリングは、より現実的な運動と様々な視角でのロバスト性を高める。
  • この手法は任意の視点から動的シーンをレンダリングでき、メッシュへの変換やImage-to-4Dタスクへの拡張も可能。
  • アブレーションは、静的前処理フェーズが収束と品質に重要であることを示し、SRFTの除去や事前学習の不足は性能を低下させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。