Skip to main content
QUICK REVIEW

[論文レビュー] MVDream: Multi-view Diffusion for 3D Generation

Yichun Shi, Peng Wang|arXiv (Cornell University)|Aug 31, 2023
Generative Adversarial Networks and Image Synthesis被引用数 72
ひとこと要約

MVDream は、3Dレンダリングと2Dデータで訓練されたマルチビュー拡散モデルを提案し、テキストから一貫したマルチビュー画像を生成します。これは SDS ベースの 3D ジェネレーションのための 3D プリオリとして機能し、DreamBooth 風の 3D パーソナライゼーションをサポートします。

ABSTRACT

We introduce MVDream, a diffusion model that is able to generate consistent multi-view images from a given text prompt. Learning from both 2D and 3D data, a multi-view diffusion model can achieve the generalizability of 2D diffusion models and the consistency of 3D renderings. We demonstrate that such a multi-view diffusion model is implicitly a generalizable 3D prior agnostic to 3D representations. It can be applied to 3D generation via Score Distillation Sampling, significantly enhancing the consistency and stability of existing 2D-lifting methods. It can also learn new concepts from a few 2D examples, akin to DreamBooth, but for 3D generation.

研究の動機と目的

  • 2D 拡散ベースの3D ジェネレーションにおけるビュー間の一貫性欠如を動機付け、解決する。
  • 2D 拡散の一般化能力を保ちつつ、マルチビューの一貫性を保証するマルチビュー拡散モデルを提案する。
  • SDSベースのパイプラインでマルチビュープリオリを用いて3D生成の安定性と品質を向上させる。
  • モデルを DreamBooth 風の適応で拡張し、少数ショットの3Dパーソナライズを可能にする。

提案手法

  • 3D クロスビューアテンションとカメラ埋め込みを導入することで、標準的な2Dテキストから画像への拡散バックボーンをマルチビュー拡散モデルに変換する。
  • 3Dレンダリング済みのマルチビューデータと大規模な2Dテキスト–画像データの混合で学習し、一般化性を継承しつつ、クロスビューの一貫性を強制する。
  • SDS における3D プリオリとしてマルチビュー拡散を用い、カメラパラメータを入力として供給し、3D NeRF風表現を駆動する。
  • x0 再構成損失と、時間ステップのアニーリング、ネガティブプロンプト、CFGリスケールなどの手法を取り入れて、マルチビュー SDS を安定化し、テクスチャ/照明の現実感を向上させる。
  • MV 拡散モデルを DreamBooth に似た設定(MV DreamBooth)へ拡張し、マルチビュー一貫性を維持しつつ、少数ショットの個人化を可能にする保存損失を導入する。
Figure 1: Typical multi-view consistency problems of 2D-lifting methods for 3D generation. Left: “A photo of a horse walking” where the horse has two faces. Right: “a DSLR photo of a plate of fried chicken and waffles with maple syrup on them” where the chicken gradually becomes a waffle.
Figure 1: Typical multi-view consistency problems of 2D-lifting methods for 3D generation. Left: “A photo of a horse walking” where the horse has two faces. Right: “a DSLR photo of a plate of fried chicken and waffles with maple syrup on them” where the chicken gradually becomes a waffle.

実験結果

リサーチクエスチョン

  • RQ1 diffusion モデルを拡張して、単一のテキストプロンプトから一貫したマルチビュー画像を生成するにはどうすればよいか。
  • RQ2マルチビュー拡散モデルは、さまざまなプロンプトとビューに対して SDS ベースの3D生成の堅牢で一般化可能な3Dプリオリとして機能できるか。
  • RQ3カメラ条件付けと共有3Dアテンションを組み込むことで、ビュー間の一貫性を改善し、生成されたマルチビューセットの内容ずれを減らせるか。
  • RQ4マルチビュー拡散は、マルチビューの一貫性を損なうことなく、効果的な3D DreamBooth風パーソナライズを実現できるか。

主な発見

ModelBatch SizeFID ↓IS ↑CLIP ↑training data
Training dataN/AN/A14.75±0.8131.31±3.34(not specified in row)
Multi-view Diffusion- no 2D data25633.4112.76±0.7030.60±3.14
Multi-view Diffusionproposed25632.5713.72±0.9131.40±3.05
Multi-view Diffusionproposed102432.0613.68±0.4131.31±3.12
  • 提案された MV 拡散モデルは、ビュー間の一貫性を達成し、ビュー間での質感/構造の品質が、単一ビュー拡散ベースラインと比較して同等かそれ以上である。
  • 定量的な結果は FID ↓、IS ↑、CLIP ↑ のスコアがトレーニングデータと競合し、テキスト-to-image データセットを追加した場合(LAION)に CLIP/IS が改善されることを示している。
  • SDS ベースの3D生成では、MV-SDS が DreamFusion、Magic3D、Text2Mesh、ProlificDreamer などの2Dリフティングベースラインよりも安定し高品質な3D資産を生み出す。
  • DreamBooth風のファインチューニング(MV DreamBooth)は、マルチビュー一貫性を維持しつつ、アイデンティティ特有の3Dカスタマイズを可能にする。
  • ユーザー調査から、参加者の約78% が MV DreamBooth の出力をベースラインより好むことが示され、頑健性と品質を裏付けている。
Figure 2: Illustration of the multi-view diffusion model. We keep the structure of text-to-image UNets by making two slight changes: (1) changing the self-attention from 2D to 3D for cross-view connection (2) adding camera embeddings for each view. Multi-view renderings are used to train the diffusi
Figure 2: Illustration of the multi-view diffusion model. We keep the structure of text-to-image UNets by making two slight changes: (1) changing the self-attention from 2D to 3D for cross-view connection (2) adding camera embeddings for each view. Multi-view renderings are used to train the diffusi

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。