QUICK REVIEW

[論文レビュー] MVDream: Multi-view Diffusion for 3D Generation

Yichun Shi, Peng Wang|arXiv (Cornell University)|Aug 31, 2023

Generative Adversarial Networks and Image Synthesis被引用数 72

ひとこと要約

MVDream は、3Dレンダリングと2Dデータで訓練されたマルチビュー拡散モデルを提案し、テキストから一貫したマルチビュー画像を生成します。これは SDS ベースの 3D ジェネレーションのための 3D プリオリとして機能し、DreamBooth 風の 3D パーソナライゼーションをサポートします。

ABSTRACT

We introduce MVDream, a diffusion model that is able to generate consistent multi-view images from a given text prompt. Learning from both 2D and 3D data, a multi-view diffusion model can achieve the generalizability of 2D diffusion models and the consistency of 3D renderings. We demonstrate that such a multi-view diffusion model is implicitly a generalizable 3D prior agnostic to 3D representations. It can be applied to 3D generation via Score Distillation Sampling, significantly enhancing the consistency and stability of existing 2D-lifting methods. It can also learn new concepts from a few 2D examples, akin to DreamBooth, but for 3D generation.

研究の動機と目的

2D 拡散ベースの3D ジェネレーションにおけるビュー間の一貫性欠如を動機付け、解決する。
2D 拡散の一般化能力を保ちつつ、マルチビューの一貫性を保証するマルチビュー拡散モデルを提案する。
SDSベースのパイプラインでマルチビュープリオリを用いて3D生成の安定性と品質を向上させる。
モデルを DreamBooth 風の適応で拡張し、少数ショットの3Dパーソナライズを可能にする。

提案手法

3D クロスビューアテンションとカメラ埋め込みを導入することで、標準的な2Dテキストから画像への拡散バックボーンをマルチビュー拡散モデルに変換する。
3Dレンダリング済みのマルチビューデータと大規模な2Dテキスト–画像データの混合で学習し、一般化性を継承しつつ、クロスビューの一貫性を強制する。
SDS における3D プリオリとしてマルチビュー拡散を用い、カメラパラメータを入力として供給し、3D NeRF風表現を駆動する。
x0 再構成損失と、時間ステップのアニーリング、ネガティブプロンプト、CFGリスケールなどの手法を取り入れて、マルチビュー SDS を安定化し、テクスチャ/照明の現実感を向上させる。
MV 拡散モデルを DreamBooth に似た設定（MV DreamBooth）へ拡張し、マルチビュー一貫性を維持しつつ、少数ショットの個人化を可能にする保存損失を導入する。

Figure 1: Typical multi-view consistency problems of 2D-lifting methods for 3D generation. Left: “A photo of a horse walking” where the horse has two faces. Right: “a DSLR photo of a plate of fried chicken and waffles with maple syrup on them” where the chicken gradually becomes a waffle.

実験結果

リサーチクエスチョン

RQ1 diffusion モデルを拡張して、単一のテキストプロンプトから一貫したマルチビュー画像を生成するにはどうすればよいか。
RQ2マルチビュー拡散モデルは、さまざまなプロンプトとビューに対して SDS ベースの3D生成の堅牢で一般化可能な3Dプリオリとして機能できるか。
RQ3カメラ条件付けと共有3Dアテンションを組み込むことで、ビュー間の一貫性を改善し、生成されたマルチビューセットの内容ずれを減らせるか。
RQ4マルチビュー拡散は、マルチビューの一貫性を損なうことなく、効果的な3D DreamBooth風パーソナライズを実現できるか。

主な発見

Model	Batch Size	FID ↓	IS ↑	CLIP ↑	training data
Training data	N/A	N/A	14.75±0.81	31.31±3.34	(not specified in row)
Multi-view Diffusion	- no 2D data	256	33.41	12.76±0.70	30.60±3.14
Multi-view Diffusion	proposed	256	32.57	13.72±0.91	31.40±3.05
Multi-view Diffusion	proposed	1024	32.06	13.68±0.41	31.31±3.12

提案された MV 拡散モデルは、ビュー間の一貫性を達成し、ビュー間での質感/構造の品質が、単一ビュー拡散ベースラインと比較して同等かそれ以上である。
定量的な結果は FID ↓、IS ↑、CLIP ↑ のスコアがトレーニングデータと競合し、テキスト-to-image データセットを追加した場合（LAION）に CLIP/IS が改善されることを示している。
SDS ベースの3D生成では、MV-SDS が DreamFusion、Magic3D、Text2Mesh、ProlificDreamer などの2Dリフティングベースラインよりも安定し高品質な3D資産を生み出す。
DreamBooth風のファインチューニング（MV DreamBooth）は、マルチビュー一貫性を維持しつつ、アイデンティティ特有の3Dカスタマイズを可能にする。
ユーザー調査から、参加者の約78% が MV DreamBooth の出力をベースラインより好むことが示され、頑健性と品質を裏付けている。

Figure 2: Illustration of the multi-view diffusion model. We keep the structure of text-to-image UNets by making two slight changes: (1) changing the self-attention from 2D to 3D for cross-view connection (2) adding camera embeddings for each view. Multi-view renderings are used to train the diffusi

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。