QUICK REVIEW

[論文レビュー] Zero123++: a Single Image to Consistent Multi-view Diffusion Base Model

Ruoxi Shi, Hansheng Chen|arXiv (Cornell University)|Oct 23, 2023

Generative Adversarial Networks and Image Synthesis被引用数 34

ひとこと要約

Zero123++はStable Diffusionベースを微調整し、1つの入力ビューから一貫したマルチビュー画像を生成します。高度な条件付け（局所/グローバル）とタイル状のマルチビューレイアウトを活用して結合分布をモデル化します。さらに深度条件付きのControlNetバリアントも実証します。

ABSTRACT

We report Zero123++, an image-conditioned diffusion model for generating 3D-consistent multi-view images from a single input view. To take full advantage of pretrained 2D generative priors, we develop various conditioning and training schemes to minimize the effort of finetuning from off-the-shelf image diffusion models such as Stable Diffusion. Zero123++ excels in producing high-quality, consistent multi-view images from a single image, overcoming common issues like texture degradation and geometric misalignment. Furthermore, we showcase the feasibility of training a ControlNet on Zero123++ for enhanced control over the generation process. The code is available at https://github.com/SUDO-AI-3D/zero123plus.

研究の動機と目的

3Dに一貫したマルチビュー生成が1枚の画像から必要であることを動機づける。
最小限の微調整で事前学習済みの2Dプリオリを再利用するマルチビュー拡散ベースモデルを開発する。
トレーニング戦略と条件付けメカニズムを通じてビュー間の一貫性を向上させる。
グローバル条件付けを活用して未見領域の意味論を保持する。
ControlNetによる深度制御生成などの拡張を示す。

提案手法

六つのビューを1つの3x2フレームにタイルしてマルチビュー結合分布をモデル化する。
絶対高度と相対方位を用いて方位の曖昧さを回避する。
マルチビュー生成のグローバル一貫性を高めるために線形ノイズスケジュールへ切り替える。
入力画像から適切な局所条件付けを提供するためにスケールドリファレンスアテンションを導入する。
CLIP埋め込みからグローバルな画像意味論を伝播させるFlexDiffuseスタイルのガイダンスによる学習可能なグローバル条件付けを適用する。
安定拡散v-modelからフェーズごとに微調整を行い、Progressive UnfreezingとMin-SNRウェイティングで効率化する。）

実験結果

リサーチクエスチョン

RQ1単一の入力画像を用いて、固定ビュー配置全体で一貫して整列したマルチビュー画像を生成できるか。
RQ2局所およびグローバルな条件付けをどのように設計すれば3D一貫性のある出力のために事前学習済みStable Diffusion priorsの再利用を最大化できるか。
RQ3拡散ノイズスケジュールを変更すると、グローバルな一貫性と局所的なディテールの間でどのような影響があるか。
RQ4局所参照アテンションとグローバル条件付けが未見領域を一貫して生成する上での影響はどの程度か。
RQ5深度制御をControlNetで行うと、ジオメトリの一貫性のあるマルチビュー出力がさらに改善されるか。

主な発見

Model	LPIPS ↓
Zero-1-to-3	0.210 ± 0.059
Zero-1-to-3 XL	0.188 ± 0.053
Zero123++ (Ours)	0.177 ± 0.066

Zero123++は検証分割で他手法と比較して最良のLPIPSスコアを達成し、マルチビューの一貫性と画像品質の向上を示す。
定性的結果は実写真・AI生成画像・2Dイラストのいずれにおいても高品質で一貫したマルチビュー画像を示す。
スケールドリファレンスアテンションを用いた局所条件付けと、学習可能なFlexDiffuseスタイルのグローバル条件付けは、未見領域の一貫性を大幅に向上させる。
深度制御を持つZero123++とControlNetは検証分割でLPIPSが0.086と低く、ジオメトリ制御の改善を示す。
モデルはStable Diffusionの priorsを保持しつつ、最小限の微調整で3D一貫したマルチビュー生成を実現する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。