[论文解读] Zero123++: a Single Image to Consistent Multi-view Diffusion Base Model
Zero123++ 对 Stable Diffusion 基础进行了微调,以仅用单一输入视图生成一致的多视图图像,利用高级条件(局部/全局)和瓷砖式多视图布局来建模联合分布。它还展示了一个深度条件化的 ControlNet 变体。
We report Zero123++, an image-conditioned diffusion model for generating 3D-consistent multi-view images from a single input view. To take full advantage of pretrained 2D generative priors, we develop various conditioning and training schemes to minimize the effort of finetuning from off-the-shelf image diffusion models such as Stable Diffusion. Zero123++ excels in producing high-quality, consistent multi-view images from a single image, overcoming common issues like texture degradation and geometric misalignment. Furthermore, we showcase the feasibility of training a ControlNet on Zero123++ for enhanced control over the generation process. The code is available at https://github.com/SUDO-AI-3D/zero123plus.
研究动机与目标
- 动机:从单一图像出发,生成 3D 一致的多视图的必要性。
- 开发一个多视图扩散基模型,复用预训练的二维先验,尽量少的微调。
- 通过训练策略和条件机制提高各视图之间的一致性。
- 利用全局条件来保留未见区域的语义。
- 展示诸如通过 ControlNet 的深度控制生成等扩展。
提出的方法
- 将六个视图拼成一个 3x2 的帧,以建模联合多视图分布。
- 使用绝对仰角和相对方位角姿态以避免方向歧义。
- 切换到线性噪声调度,以在多视图生成中实现更好的全局一致性。
- 引入缩放参考注意力,以从输入图像提供合适的局部条件。
- 应用基于 FlexDiffuse 风格的可训练全局条件传播自 CLIP 嵌入以传播全局图像语义。
- 阶段性微调,从 Stable Diffusion v-model 开始,逐步解冻并使用 Min-SNR 加权以提高效率。
实验结果
研究问题
- RQ1是否可以使用单一输入图像在固定视图布局下生成对齐一致的多视图图像?
- RQ2如何设计局部与全局条件以最大程度重复使用预训练的 Stable Diffusion 先验,以获得 3D 一致的输出?
- RQ3改变扩散噪声调度是否会在多视图生成中提升全局一致性相对于局部细节?
- RQ4局部参考注意力和全局条件对在生成未见区域时保持连贯性有何影响?
- RQ5通过 ControlNet 的深度控制是否能进一步改善几何一致的多视图输出?
主要发现
| 模型 | LPIPS ↓ |
|---|---|
| Zero-1-to-3 | 0.210 ± 0.059 |
| Zero-1-to-3 XL | 0.188 ± 0.053 |
| Zero123++ (Ours) | 0.177 ± 0.066 |
- Zero123++ 在对比方法中的验证集取得了最佳的 LPIPS 分数,表明更高的多视图一致性和图像质量。
- 定性结果显示在真实照片、AI 生成图片和二维插画中均具有高质量、一致的多视图图像。
- 使用缩放参考注意力的局部条件和通过可训练的 FlexDiffuse 风格引导的全局条件显著提高了未见区域的一致性。
- 深度控制的 Zero123++ 搭配 ControlNet 在验证集上达到更低的 LPIPS(0.086),证明了改善的几何控制。
- 该模型在实现 3D 一致的多视图生成的同时保留了 Stable Diffusion 的先验知识,并进行最小微调。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。