[論文レビュー] GAUDI: A Neural Architect for Immersive 3D Scene Generation
GAUDIは放射輝度場とカメラ位置の分離された潜在表現を学習し、スケーラブルな3Dシーン生成を実現。条件付き生成をテキスト、画像、またはシーンカテゴリから可能にし、最新の無条件結果を達成。
We introduce GAUDI, a generative model capable of capturing the distribution of complex and realistic 3D scenes that can be rendered immersively from a moving camera. We tackle this challenging problem with a scalable yet powerful approach, where we first optimize a latent representation that disentangles radiance fields and camera poses. This latent representation is then used to learn a generative model that enables both unconditional and conditional generation of 3D scenes. Our model generalizes previous works that focus on single objects by removing the assumption that the camera pose distribution can be shared across samples. We show that GAUDI obtains state-of-the-art performance in the unconditional generative setting across multiple datasets and allows for conditional generation of 3D scenes given conditioning variables like sparse image observations or text that describes the scene.
研究の動機と目的
- 多様な視点を持つ数千の室内シーンへ3Dシーン生成をスケールさせる。
- 放射輝度場とカメラ姿勢を別々の潜在コードに分離し、スケーラブルな最適化を可能にする。
- 潜在表現上の事前分布を学習し、無条件生成を可能にする。
- 画像、テキストプロンプト、環境ラベルなどの観測を用いて条件付き生成を有効にする。
- データセットを横断した最先端の性能を実証し、条件付き生成能力を示す。
提案手法
- エンコーダフリーのデノイズ目的によって軌道ごとの潜在コード z = [z_scene, z_pose] を最適化する。
- 3部構成のデコーダを用いる:位置姿勢デコーダ c SE(3) → 正規化時間 s での姿勢、 tri-plane W を出力するシーンデコーダ d、体積レンダリングによりRGB/深度をレンダリングする放射場 f。
- 放射場を tri-plane 表現 W = [W_xy, W_xz, W_yz] でモデル化し、f を二線形サンプルされた平面特徴に条件付けする。
- 再構成損失 L_scene (RGB/深度) および姿勢損失 L_pose (平行移動と四元数項) でネットワークパラメータと潜在コードを同時に最適化して訓練する。
- 補間と頑健な生成を支える収束性のある潜在空間を促進するため、beta * N(0, std(Z)) となる加法的潜在摂動を適用する。
- DDPMベースの事前分布を用いて p(Z) を学習し、無条件サンプリングと、対応する条件付け y が利用可能な場合の条件付きサンプリングを可能にする。
実験結果
リサーチクエスチョン
- RQ1GAUDIは、シーンの幾何とカメラ運動を分離する潜在コードを介して経験的軌道分布を再構成できるか?
- RQ2潜在量 Z に対する DDPM ベースの事前分布を学習することは、多様なデータセットに跨る高品質な無条件3Dシーン生成をもたらすか?
- RQ3テキスト、画像観測、環境ラベルが与えられた場合、GAUDIは条件付き3Dシーン生成を行えるか?
- RQ4放射場と姿勢を分離することが、再構成品質および生成指標を、以前の手法と比較してどのように影響するか?
主な発見
| Dataset | GRAF FID | GRAF SwAV-FID | pi-GAN FID | pi-GAN SwAV-FID | GSN FID | GSN SwAV-FID | GAUDI FID | GAUDI SwAV-FID |
|---|---|---|---|---|---|---|---|---|
| VizDoom | 47.50±2.13 | 5.44±0.43 | 65.37±1.64 | 5.76±0.14 | 90.43±4.83 | 8.65±0.27 | 33.70±1.27 | 3.24±0.12 |
| Replica | 18-100-1k | 1— | 18.75 | 1.76 | 18.52 | 3.63 | 37.35 | 4.14 |
- GAUDIは、VizDoom、Replica、VLN-CE、ARKitScenes の各データセットに対して FID および SwAV-FID 指標に基づき、無条件生成の最先端性能を達成。
- 本モデルは放射場とカメラ姿勢の分離された潜在コードを学習し、1千以上の軌道にわたるスケーラブルな最適化を可能にする。
- テキスト、画像観測、環境カテゴリに基づく条件付き生成は、無条件モデルより競争力のある FID/SwAV-FID の改善をもたらす。
- 再構成された軌道は高忠実度(PSNR、SSIM)と正確な姿勢推定を示し、シーン間の意味のある潜在空間補間を有する。
- 無条件GAUDI分布からのサンプルは、データセットを跨いで多様で現実的な3Dシーンをレンダリングする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。