[論文レビュー] DreamFusion: Text-to-3D using 2D Diffusion
DreamFusion は事前学習済みの 2D 拡散モデルを prior として使用し、テキストから NeRF ベースの 3D シーンを最適化して、3D 訓練データなしで視認可能な 3D オブジェクトを実現します。
Recent breakthroughs in text-to-image synthesis have been driven by diffusion models trained on billions of image-text pairs. Adapting this approach to 3D synthesis would require large-scale datasets of labeled 3D data and efficient architectures for denoising 3D data, neither of which currently exist. In this work, we circumvent these limitations by using a pretrained 2D text-to-image diffusion model to perform text-to-3D synthesis. We introduce a loss based on probability density distillation that enables the use of a 2D diffusion model as a prior for optimization of a parametric image generator. Using this loss in a DeepDream-like procedure, we optimize a randomly-initialized 3D model (a Neural Radiance Field, or NeRF) via gradient descent such that its 2D renderings from random angles achieve a low loss. The resulting 3D model of the given text can be viewed from any angle, relit by arbitrary illumination, or composited into any 3D environment. Our approach requires no 3D training data and no modifications to the image diffusion model, demonstrating the effectiveness of pretrained image diffusion models as priors.
研究の動機と目的
- 事前学習済みの 2D テキストから画像への拡散モデルが 3D 合成の priors として 3D データなしで機能することを実証する。
- 3D レンダリングを拡散モデルの priors に整列させる微分可能な画像パラメトリゼーションと損失を開発する。
- arbitrary な角度と照明で視認可能な一貫した 3D オブジェクトとシーンを生成する。
- このアプローチが多様なプロンプトに一般化し、既存のゼロショット テキストから 3D への手法と比較して有利であることを示す。
提案手法
- 固定された prior として事前学習済みの 2D diffusion モデル(Imagen base 64x64)を使用する。
- 3D 幾何と外観を表す NeRF(mip-NeRF 360)の形で微分可能な画像パラメトリゼーションを採用する。
- ランダムなカメラポーズから NeRF をレンダリングし、ランダムな光源を用いたビュー依存のシェーディングモデルを適用する。
- Score Distillation Sampling(SDS)を介して勾配を計算し、拡散モデルが予測するノイズを用いて NeRF の最適化を行い、拡散モデルを微分計算の対象とせずに最適化する。
- 約 15,000 回の反復で TPUv4 上の勾配降下法で NeRF パラメータを最適化し、 large classifier-free guidance weight(ω ≈ 100)を使用する。
- ビュー依存のプロンプトとランダム照明を付加してジオメトリとレンダリングの忠実度を向上させる。
実験結果
リサーチクエスチョン
- RQ1 frozen な 2D テキストから画像への拡散モデルは 3D 訓練データなしでゼロショットのテキストから 3D 合成の実用的な priors を提供できるか?
- RQ2 diffusion モデルの priors に整合する一貫したレンダリングを複数のランダムなビューから生成するよう 3D NeRF を最適化するにはどうすればよいか?
- RQ3 viewing variation、 illumination、 textureless shading は diffusion 指向の最適化下で 3D ジオメトリの品質を改善する際にどのような役割を果たすか?
- RQ4 DreamFusion の性能は画像とテキストの priors を用いた prior zero-shot 3D 手法と比較してどうか?
主な発見
| 方法 | R-精度 | CLIP B/32 カラー | CLIP B/32 ジオメトリ | CLIP B/16 カラー | CLIP B/16 ジオメトリ | CLIP L/14 カラー | CLIP L/14 ジオメトリ | GT 画像 | 注記 |
|---|---|---|---|---|---|---|---|---|---|
| DreamFusion | 75.1 | 42.5 | 77.5 | 46.6 | 79.7 | 58.5 | – | – | From object-centric COCO prompts; outperforms Dream Fields and CLIP-Mesh on color renders while approaching GT images. |
| GT Images | 77.1 | – | 79.1 | – | – | – | – | – | Ground-truth MS-COCO references for comparison |
- DreamFusion は前処理済みの 2D 拡散モデルを priors として使用するだけで、自然言語プロンプトから一貫した 3D NeRF シーンを生成できる。
- Score Distillation Sampling(SDS)は、拡散モデルを微分回り込ませることなく NeRF パラメータ空間での最適化を可能にする、単純で微分可能な損失を提供する。
- 反復中のカメラと照明の乱択サンプリングは、ビューに整合した 3D ジオメトリをもたらし、再照明と環境統合を可能にする。
- textureless shading とビュー依存プロンプトは、ジオメトリの忠実度とプロンプトとの CLIP 一貫性を大幅に改善する。
- CLIP R-Precision を用いた定量評価では、DreamFusion はカラー レンダリングでいくつかのベースラインを上回り、特定のプロンプトに対して GT キャプションに近づく一方、ジオメトリ中心の指標は陰影とテクスチャレスジオメトリを含めると改善を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。