Skip to main content
QUICK REVIEW

[論文レビュー] Consistent123: Improve Consistency for One Image to 3D Object Synthesis

Haohan Weng, Tianyu Yang|arXiv (Cornell University)|Oct 12, 2023
Generative Adversarial Networks and Image Synthesis被引用数 10
ひとこと要約

Consistent123は、クロスビューアテンションと共有自己注意を用いて同時に複数の新規ビューを生成し、画像から3Dオブジェクト合成の視点一貫性を高める。サンプリング時には進行的な classifier-free ガイダンス戦略を採用。

ABSTRACT

Large image diffusion models enable novel view synthesis with high quality and excellent zero-shot capability. However, such models based on image-to-image translation have no guarantee of view consistency, limiting the performance for downstream tasks like 3D reconstruction and image-to-3D generation. To empower consistency, we propose Consistent123 to synthesize novel views simultaneously by incorporating additional cross-view attention layers and the shared self-attention mechanism. The proposed attention mechanism improves the interaction across all synthesized views, as well as the alignment between the condition view and novel views. In the sampling stage, such architecture supports simultaneously generating an arbitrary number of views while training at a fixed length. We also introduce a progressive classifier-free guidance strategy to achieve the trade-off between texture and geometry for synthesized object views. Qualitative and quantitative experiments show that Consistent123 outperforms baselines in view consistency by a large margin. Furthermore, we demonstrate a significant improvement of Consistent123 on varying downstream tasks, showing its great potential in the 3D generation field. The project page is available at consistent-123.github.io.

研究の動機と目的

  • 単一の条件付き画像から幾何自由な3D物体合成における視点一貫性の向上を動機づける。
  • クロスビューインタラクションを伴う同時多ビュー生成を実現するアーキテクチャを提案する。
  • 事前学習済み重みと最小限の学習可能パラメータを活用してゼロショット能力を保持する。
  • 任意の数のビューを可能にするサンプリング戦略を導入し、幾何情報とテクスチャのトレードオフを最適化する。

提案手法

  • ノイズ除去U-Netの各自己注意層の後にクロスビューアテンションを組み込んで、合成ビュー間の相互作用を可能にする。
  • 全ビューが条件付入力ビューに注意を払う共有自己注意機構を適用して、空間レイアウトをより良く揃える。
  • 入力ビューと連結された複数のノイズのあるビューで訓練し、入力ビューのCLIP埋め込みと姿勢の相対変換を条件とする。
  • サンプリング時に可変長のビューを同時生成できるようにする。訓練は固定長ビューで、サンプリングは任意長ビュー。
  • デノイジング中にガイダンス強度を徐々に低減する進行的 classifier-free ガイダンス(PCFG)を導入し、幾何とテクスチャのディテールのバランスを取る。
  • 空間層を事前学習済みのZero123モデルから初期化し、クロスビューアテンションの重みは訓練可能なままゼロショット能力を保持する。
Figure 1: Given the input view and relative pose sequence, Consistent123 can synthesize consistent novel views concurrently, while Zero123 fails at producing consistent views.
Figure 1: Given the input view and relative pose sequence, Consistent123 can synthesize consistent novel views concurrently, while Zero123 fails at producing consistent views.

実験結果

リサーチクエスチョン

  • RQ1同時多ビュー拡散生成は任意のオブジェクトカテゴリ全体で視点一貫性を改善できますか?
  • RQ2クロスビューアテンションと共有自己注意は、条件ビューと合成ビューの整合性にどのように影響しますか?
  • RQ3実践的に、任意長ビューやPCFGなどのどのサンプリング戦略が、幾何情報とテクスチャのトレードオフと一貫性を最適化しますか?
  • RQ4ベースラインと比較して、3D再構成や画像から3D生成といった下流タスクでConsistent123はどのように性能を発揮しますか?

主な発見

データセットモデルPSNR ↑SSIM ↑LPIPS ↓
Objaverse TestsetZero12321.720.920.23
Objaverse TestsetZero123 + SC22.090.920.21
Objaverse TestsetConsistent12324.980.960.14
GSOZero12322.880.920.25
GSOZero123 + SC22.300.930.21
GSOConsistent12327.980.980.11
RTMVZero12315.680.780.36
RTMVZero123 + SC15.880.760.36
RTMVConsistent12318.760.850.25
  • Consistent123は複数のベンチマークでZero123および確率的条件付けを用いたZero123よりも視点一貫性を大幅に向上させる。
  • 訓練でクロスビューアテンションと共有自己注意を用いると、Objaverse、GSO、RTMVデータセット全体でPSNRとSSIMを高く、LPIPSを低くする。
  • アブレーションにより、クロスビューアテンションが一貫性に最も重要な要素であることが示され、共有自己注意とPCFGが追加の利得をもたらす。
  • サンプリング時により多くのビューを同時生成すると、一貫性と品質が向上し、自己回帰の期待に反する。
  • PCFG(特に concave reduction)は、幾何とテクスチャのバランスを改善し、欠陥を減らしつつディテールを保持する。
Figure 2: The overall method of Consistent123. (a) At the training stage, multiple noisy views concatenated (denoted as $\oplus$ ) with the input view are fed into the denoising U-Net simultaneously, conditioned on the CLIP embedding of the input view and the corresponding poses. For sampling, views
Figure 2: The overall method of Consistent123. (a) At the training stage, multiple noisy views concatenated (denoted as $\oplus$ ) with the input view are fed into the denoising U-Net simultaneously, conditioned on the CLIP embedding of the input view and the corresponding poses. For sampling, views

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。