QUICK REVIEW

[論文レビュー] Novel View Synthesis with Diffusion Models

Daniel Watson, William Chan|arXiv (Cornell University)|Oct 6, 2022

Advanced Vision and Imaging被引用数 63

ひとこと要約

3DiM は、テスト時最適化なしで、幾何学的制約のない拡散モデルとして、確率的条件付けと共有 X-UNet アーキテクチャを用いて単一画像から複数の3D整合的な新規ビューを合成します。

ABSTRACT

We present 3DiM, a diffusion model for 3D novel view synthesis, which is able to translate a single input view into consistent and sharp completions across many views. The core component of 3DiM is a pose-conditional image-to-image diffusion model, which takes a source view and its pose as inputs, and generates a novel view for a target pose as output. 3DiM can generate multiple views that are 3D consistent using a novel technique called stochastic conditioning. The output views are generated autoregressively, and during the generation of each novel view, one selects a random conditioning view from the set of available views at each denoising step. We demonstrate that stochastic conditioning significantly improves the 3D consistency of a naive sampler for an image-to-image diffusion model, which involves conditioning on a single fixed view. We compare 3DiM to prior work on the SRN ShapeNet dataset, demonstrating that 3DiM's generated completions from a single view achieve much higher fidelity, while being approximately 3D consistent. We also introduce a new evaluation methodology, 3D consistency scoring, to measure the 3D consistency of a generated object by training a neural field on the model's output views. 3DiM is geometry free, does not rely on hyper-networks or test-time optimization for novel view synthesis, and allows a single model to easily scale to a large number of scenes.

研究の動機と目的

入力ビューが限られている場合の新規ビュー合成を動機づけ、見えないビューを生成する際の曖昧性を強調する。
単一または少数の入力ビューから複数の3D整合的なビューを生成できる、幾何学的制約のないエンドツーエンドの拡散モデルを開発する。
明示的な3D表現やテスト時最適化に依存せず、3Dの整合性を促進する機序を導入する。
生成されたビュー上のニューラル場トレーニングを通じて3D整合性を定量化する、新しい幾何学無しのビュー合成評価スキームを提供する。

提案手法

ソースビューとその姿勢を条件としてターゲットビューを生成するよう学習する姿勢条件付き画像-to-画像拡散モデルである 3DiM を提案する。
各デノイズステップで conditioning ビューをランダムに選択して自己回帰的に複数ビューを生成する確率的条件付けを導入し、3Dの整合性を促進する。
入力フレーム間で重み共有を行い、条件付けビューとターゲットビューを結合するクロスアテンションを備えた幾何学認識型 UNet である X-UNet を開発する。
明示的な3D表現やテスト時最適化を必要とせず、同じシーンのビューのペアで学習する。
標準指標（PSNR、SSIM、FID）と新たに提案された3D整合性評価を用いて、ShapeNetベースの SRN タスクで従来の幾何学認識型および幾何学なしの手法と比較する。

実験結果

リサーチクエスチョン

RQ1拡散モデルを、限られた入力ビューから新規ビュー合成を行うように適応できるか。
RQ2幾何学なしの拡散モデルが、シーンごとの最適化や明示的な3D表現なしで、複数の3D整合的ビューを生成できるか。
RQ33Dの整合性と視覚的忠実度を向上させる設計選択とサンプリング戦略（例えば確率的条件付け）は何か。
RQ4幾何学なしのビュー合成における3D整合性を、従来の画像品質指標を超えてどのように評価すべきか。

主な発見

3DiM は単一の入力ビューからシャープで妥当な新規ビューを生成し、従来法と比較して約3D整合的な結果を達成する。
確率的条件付けは、拡散ベースのサンプリングにおける単純な固定ビュー条件付けよりも3Dの整合性を著しく改善する。
重み共有とクロスアテンションを備えた X-UNet アーキテクチャは、3D整合性と conditioning ビューへの整合性で Concat-UNet を上回る。
標準指標（PSNR、SSIM）は幾何学なしモデルのサンプル品質を完全には反映しない可能性がある一方、FID と提案された 3D 整合性評価はモデルの性能をより信頼性高く捉える。
モデル出力上のニューラル場を用いた専用の3D整合性スコアリング手法は、不整合な出力をペナルティし、定性的評価と一致する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。