QUICK REVIEW

[論文レビュー] Wonder3D: Single Image to 3D using Cross-Domain Diffusion

Xiaoxiao Long, Yuan-Chen Guo|arXiv (Cornell University)|Oct 23, 2023

Advanced Vision and Imaging被引用数 24

ひとこと要約

Wonder3Dは単一画像から多視点法線と色を生成するクロスドメイン拡散モデルで高忠実なテクスチャ付きメッシュを再構成し、それらを3D表面へ統合します。

ABSTRACT

In this work, we introduce Wonder3D, a novel method for efficiently generating high-fidelity textured meshes from single-view images.Recent methods based on Score Distillation Sampling (SDS) have shown the potential to recover 3D geometry from 2D diffusion priors, but they typically suffer from time-consuming per-shape optimization and inconsistent geometry. In contrast, certain works directly produce 3D information via fast network inferences, but their results are often of low quality and lack geometric details. To holistically improve the quality, consistency, and efficiency of image-to-3D tasks, we propose a cross-domain diffusion model that generates multi-view normal maps and the corresponding color images. To ensure consistency, we employ a multi-view cross-domain attention mechanism that facilitates information exchange across views and modalities. Lastly, we introduce a geometry-aware normal fusion algorithm that extracts high-quality surfaces from the multi-view 2D representations. Our extensive evaluations demonstrate that our method achieves high-quality reconstruction results, robust generalization, and reasonably good efficiency compared to prior works.

研究の動機と目的

拡散事前知識を活用して、 ill-posed な単一ビューの3D再構成問題に対処する。
視点間およびドメイン間の一貫性（法線とカラー）を向上させ、整合性のある3D表面を実現する。
SDSベースの手法と比較して、推論を効率化しつつ高品質な幾何とテクスチャを実現する。
ゼロショットで多様な形状とスタイルへ一般化できる拡散フレームワークを探求する。

提案手法

単一入力画像から一貫した法線マップとカラー画像を生成する、マルチビュー・クロスドメイン拡散モデルを提案する。
再訓練なしで法線とカラーの条件付けを行うドメインスイッチャーを導入する。
幾何視覚的一貫性のため、法線ドメインとカラードメイン間で情報を交換するクロスドメインアテンションを組み込む。
生成されたマルチビュー表現から高品質な表面を抽出する、幾何認識型法線融合アルゴリズムを開発する。
事前学習済み2D priors（Stable Diffusion）と互換性のある拡散フレームワークを活用して、ゼロショットの効率的な一般化を図る。

実験結果

リサーチクエスチョン

RQ1クロスドメイン拡散モデルは、単一画像からどのようにマルチビュー法線とカラーを同時に生成できるか？
RQ2クロスドメインアテンションは、視点間で生成された法線とカラーの一貫性を改善できるか？
RQ3幾何認識型法線融合は、2D法線と画像から高品質な3D表面をどれだけ効果的に再構成できるか？
RQ4SDSベースの3D再構成手法と比較したときの効率と一般化のトレードオフは？

主な発見

手法	Chamfer 距離 ↓	Volume IoU ↑
RealFusion	0.0819	0.2741
Magic123	0.0516	0.4528
One-2-3-45	0.0629	0.4086
Point-E	0.0426	0.2875
Shap-E	0.0436	0.3584
Zero123	0.0339	0.5035
SyncDreamer	0.0261	0.5421
Ours	0.0199	0.6244

我々の手法は、GSOデータセットでの単一視点再構成手法の中で最も高い幾何学性とテクスチャ品質を達成（表1）。
新規視点合成指標（PSNR、SSIM、LPIPS）で、ベースラインより大幅に改善（表2）。
クロスドメインアテンションを備えたクロスドメイン拡散は、逐次的または非アテンション型よりマルチビューの一貫性が高い。
幾何認識型法線損失とアウトライヤー除去戦略により、表面がよりきれいで細部の保持が向上。
本法は2分でテクスチャ付きメッシュを再構成し、形状ごとにSDS最適化を要する時間を超えるパフォーマンスを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。