QUICK REVIEW

[论文解读] Zero-1-to-3: Zero-shot One Image to 3D Object

Ruoshi Liu, Rundi Wu|arXiv (Cornell University)|Mar 20, 2023

Advanced Vision and Imaging被引用 21

一句话总结

Zero-1-to-3 对预训练扩散模型进行微调，使其能够从单幅图像控制相机视点，从而实现零样本的新视图合成和三维重建，优于基线。

ABSTRACT

We introduce Zero-1-to-3, a framework for changing the camera viewpoint of an object given just a single RGB image. To perform novel view synthesis in this under-constrained setting, we capitalize on the geometric priors that large-scale diffusion models learn about natural images. Our conditional diffusion model uses a synthetic dataset to learn controls of the relative camera viewpoint, which allow new images to be generated of the same object under a specified camera transformation. Even though it is trained on a synthetic dataset, our model retains a strong zero-shot generalization ability to out-of-distribution datasets as well as in-the-wild images, including impressionist paintings. Our viewpoint-conditioned diffusion approach can further be used for the task of 3D reconstruction from a single image. Qualitative and quantitative experiments show that our method significantly outperforms state-of-the-art single-view 3D reconstruction and novel view synthesis models by leveraging Internet-scale pre-training.

研究动机与目标

利用大规模扩散先验从单幅二维图像中推断三维信息。
在没有三维标注的情况下学习相对相机外参的控制。
实现对野外场景和分布外图像的零样本泛化。
展示在新视图合成和单视角三维重建方面的最新性能。

提出的方法

对预训练的潜在扩散模型（如 Stable Diffusion）进行微调，以利用成对图像和相对外参学习相机视点控制。
使用潜在扩散目标使去噪预测与编码输入视图和相对相机变换的条件 c(x,R,T) 对齐。
用混合输入为去噪器提供条件：结合输入图像和 R,T 的定姿态 CLIP 嵌入，以及图像本身以保持身份特征。
采用无分类器引导的受控条件化，以实现可靠的视点条件生成。
通过将 Score Jacobian Chaining (SJC) 与扩散先验和类似 NeRF 的体积渲染相结合，扩展到三维重建。
在来自 Objaverse 的成对数据（x, x_{R,T}）上训练，使用每个对象的多个视点以学习鲁棒的视点控制。
展示对野外图像和艺术品（如印象派画作）的零样本泛化。

实验结果

研究问题

RQ1是否可以让以二维图像预训练的扩散模型从单幅图像学习可控的相机外参？
RQ2微调是否会引入对未见对象和分布外图像的零样本泛化？
RQ3视点条件扩散模型在新视图合成和单视角三维重建方面的支持程度如何？
RQ4与现有的零样本单视角三维方法相比，获得了哪些定性和定量的提升？
RQ5该方法是否能处理多样的物体几何和艺术风格（如画作）？

主要发现

该方法在 Google Scanned Objects 和 RTMV 基准上实现了单图像新视图合成的最新最佳结果。
零样本三维重建在评估数据集上在 Chamfer Distance 和 IoU 上优于基线。
结果对野外图像和艺术品（包括印象派画作）有效，展示出强大的零样本泛化能力。
定性结果在大视角变化下显示出高保真、细节丰富的视图，超过竞争性零样本基线如 DietNeRF、Image Variations 和 SJC-I。
该方法利用互联网尺度的预训练，从二维扩散模型中提取丰富的几何先验，实现无需显式三维监督的三维推理。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。