QUICK REVIEW

[論文レビュー] NerfDiff: Single-image View Synthesis with NeRF-guided Distillation from 3D-aware Diffusion

Jiatao Gu, Alex Trevithick|arXiv (Cornell University)|Feb 20, 2023

Advanced Vision and Imaging被引用数 37

ひとこと要約

NerfDiff はカメラ空間のトライプレーン NeRF を 3D-aware 拡散モデルと共同訓練し、NeRF-guided distillation を用いて単一画像からの多視点一貫性のある新規ビュー合成の微調整を実現する。

ABSTRACT

Novel view synthesis from a single image requires inferring occluded regions of objects and scenes whilst simultaneously maintaining semantic and physical consistency with the input. Existing approaches condition neural radiance fields (NeRF) on local image features, projecting points to the input image plane, and aggregating 2D features to perform volume rendering. However, under severe occlusion, this projection fails to resolve uncertainty, resulting in blurry renderings that lack details. In this work, we propose NerfDiff, which addresses this issue by distilling the knowledge of a 3D-aware conditional diffusion model (CDM) into NeRF through synthesizing and refining a set of virtual views at test time. We further propose a novel NeRF-guided distillation algorithm that simultaneously generates 3D consistent virtual views from the CDM samples, and finetunes the NeRF based on the improved virtual views. Our approach significantly outperforms existing NeRF-based and geometry-free approaches on challenging datasets, including ShapeNet, ABO, and Clevr3D.

研究の動機と目的

Occlusion の下で意味論的・物理的一貫性を保つ単一画像による新規ビュー合成を動機づける。
単一入力画像に条件付けられたカメラアラインドなトライプレーン NeRF 表現を提案する。
被覆領域の不確実性を解決する 3D-aware 条件付き拡散モデルを統合する。
NeRF-guided distillation (NGD) を導入し、テスト時に NeRF のレンダリングを同時に微調整し、マルチビュー拷貝拡散をガイドする。
ShapeNet、ABO、および Clevr3D データセットで最先端の性能を示す。

提案手法

画像に適合した UNet エンコーダーが生成する image-aligned なトライプレーンを介して単一入力画像を条件付けるカメラ空間トライプレーン NeRF を導入する。
ターゲットビューへ NeRF レンダリングを refine する 3D-aware 条件付き拡散モデル（CDM）を構築する。
複数視点データで NeRF と CDM を共同訓練し、入力画像からのテスト時初期化を可能にする。
推論時に CDM で仮想ビューを生成し、NeRF-guided distillation (NGD) を用いて CDM の知識を NeRF に還元し NeRF を微調整する。
NeRF の蒸留と拡散サンプリングを交互の最適化スキームで実行し、ビュー間の 3D 一貫性を強化する。

実験結果

リサーチクエスチョン

RQ1単一画像をどのように利用して高忠実度の多視点一貫性のある新規ビューを生成できるか？
RQ23D-aware拡散モデルは、単一画像で条件付ける際の不確実性を解決する信頼性のある視点一貫性 priors を提供できるか？
RQ3NeRF-guided distillation によるテスト時微調整は、既存の単一画像 NeRF やジオメトリフリー手法より 3D 一貫性と知覚品質を向上させるか？
RQ4標準ベンチマークにおけるトライプレーン NeRF + CDM フレームワークの速度と精度のトレードオフはどの程度か？

主な発見

NerfDiff は ShapeNet Cars/Chairs および ABO でジオメトリフリーおよび単一視点 NeRF ベースラインと比較して最先端の PSNR と SSIM を達成する。
3D-aware CDM の組み込みは特に被覆部 behind occlusions において視覚的品質 (LPIPS) と FID を著しく向上させる。
NGD 微調整は naive CDM 蒸留や SDS ベース手法より鮮明なレンダリングと FID/LPIPS の改善をもたらす。
より大きい CDM/NeRF モデルサイズ（NerfDiff-L）は視覚品質を向上させ、NGD は FID と LPIPS に顕著な利益を提供する。
アブレーションにより 50 の仮想ビューが効率と性能の良いバランスとなることが示される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。