QUICK REVIEW

[論文レビュー] Zero-1-to-3: Zero-shot One Image to 3D Object

Ruoshi Liu, Rundi Wu|arXiv (Cornell University)|Mar 20, 2023

Advanced Vision and Imaging被引用数 21

ひとこと要約

Zero-1-to-3 は事前学習済み拡散モデルを微調整して単一画像からの制御可能なカメラ視点を実現し、ゼロショットの新規視点合成と3D再構成でベースラインを上回る。

ABSTRACT

We introduce Zero-1-to-3, a framework for changing the camera viewpoint of an object given just a single RGB image. To perform novel view synthesis in this under-constrained setting, we capitalize on the geometric priors that large-scale diffusion models learn about natural images. Our conditional diffusion model uses a synthetic dataset to learn controls of the relative camera viewpoint, which allow new images to be generated of the same object under a specified camera transformation. Even though it is trained on a synthetic dataset, our model retains a strong zero-shot generalization ability to out-of-distribution datasets as well as in-the-wild images, including impressionist paintings. Our viewpoint-conditioned diffusion approach can further be used for the task of 3D reconstruction from a single image. Qualitative and quantitative experiments show that our method significantly outperforms state-of-the-art single-view 3D reconstruction and novel view synthesis models by leveraging Internet-scale pre-training.

研究の動機と目的

大規模な拡散事前知識を活用して、単一の2D画像から3D情報を推定する。
3Dアノテーションなしで相対的なカメラ外部参照系の制御を学習する。
生の画像や分布外の画像へのゼロショット一般化を達成する。
新規視点合成と単一視点の3D再構成において最先端の性能を示す。

提案手法

ペア画像と相対外部参照を用いて、カメラの視点制御を学習するように事前学習済みの潜在拡散モデル（例：Stable Diffusion）を微調整する。
入力視点と相対的なカメラ変換を符号化する conditioning c(x,R,T) とデノイジング予測を合わせる潜在拡散目的を用いる。
アイデンティティを保持するため、入力画像と R,T を組み合わせた配置済み CLIP 埋め込みと画像自体を組み合わせたハイブリッド入力でデノイザーを条件付ける。
信頼性の高い視点条件付き生成を可能にするため、制御された条件付きで分類器なしガイダンスを採用する。
拡散事前知識と NeRF 風体積レンダリングを取り入れた Score Jacobian Chaining (SJC) を統合して3D再構成へ拡張する。
オブジェクトごとに複数の視点を用いて Objaverse由来のペア (x, x_{R,T}) を学習し、堅牢な視点制御を学ぶ。
野外画像や美術作品（例：印象派の絵画）へのゼロショット一般化を実証する。

実験結果

リサーチクエスチョン

RQ12D画像で事前学習された拡散モデルは、単一の画像から制御可能なカメラ外部参照系を学習できるか。
RQ2微調整は未知のオブジェクトや分布外の画像へのゼロショット一般化を誘発するか。
RQ3視点条件付き拡散モデルは新規視点合成と単一視点の3D再構成の両方をどれだけサポートできるか。
RQ4既存のゼロショット単一視点3D手法に対する質的および量的な利得は何か。
RQ5この手法は多様な物体幾何学と芸術スタイル（例：絵画）に対応できるか。

主な発見

本手法は Google Scanned Objects および RTMV ベンチマークにおける単一画像からの新規視点合成で最先端の結果を達成する。
ゼロショット3D再構成は、 Chamfer Distance と IoU のベースラインを上回る。
野外画像やアートワーク（印象派の絵画を含む）でも結果が有効で、強いゼロショット一般化を示す。
定性的な結果は、大幅な視点変更にも高忠実度で詳細豊かな視点を示し、DietNeRF、Image Variations、SJC-I などの競合的なゼロショットベースラインを上回る。
本手法はインターネット規模の事前学習を利用して2D拡散モデルから豊かな幾何学的 priors を抽出し、明示的な3D監視なしで3D推論を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。