QUICK REVIEW

[论文解读] AutoDecoding Latent 3D Diffusion Models

Evangelos Ntavelis, Aliaksandr Siarohin|arXiv (Cornell University)|Jul 7, 2023

Generative Adversarial Networks and Image Synthesis被引用 9

一句话总结

本论文引入一个具有潜在扩散的三维自解码器，其潜在空间用于从二维观测生成视图一致的三维内容，能够在没有完整三维监督的情况下处理刚性和关节对象。

ABSTRACT

We present a novel approach to the generation of static and articulated 3D assets that has a 3D autodecoder at its core. The 3D autodecoder framework embeds properties learned from the target dataset in the latent space, which can then be decoded into a volumetric representation for rendering view-consistent appearance and geometry. We then identify the appropriate intermediate volumetric latent space, and introduce robust normalization and de-normalization operations to learn a 3D diffusion from 2D images or monocular videos of rigid or articulated objects. Our approach is flexible enough to use either existing camera supervision or no camera information at all -- instead efficiently learning it during training. Our evaluations demonstrate that our generation results outperform state-of-the-art alternatives on various benchmark datasets and metrics, including multi-view image datasets of synthetic objects, real in-the-wild videos of moving people, and a large-scale, real video dataset of static objects.

研究动机与目标

在体素化自解码器中学习数据集范围的对象属性的潜在空间，以实现从二维监督的三维渲染。
确定一个鲁棒的中间体体积潜在空间并进行归一化/反归一化，以使三维扩散训练成为可能。
在有无相机信息的情况下支持刚性与非刚性对象，在训练期间学习相机因素。
扩展到大规模多类别数据集和包含真实世界视频的数据集。
在潜在三维空间中实现高效扩散，展示在合成和真实数据集上的最先进结果。

提出的方法

训练一个体素自解码器 G，将 1D 对象嵌入映射到低分辨率潜在三维体积 (V^Density, V^RGB)，并渐进地上采样以输出体素网格用于渲染。
利用来自二维图像的渲染监督，结合金字塔感知损失和前景遮罩，学习几何和外观，无需三维监督。
将 G 拆分为 G1（潜在三维特征体积）和 G2（辐亮体积）；阶段 2 固定 G，训练在 G1 产生的潜在空间中的三维扩散模型。
基于特征中位数和归一化四分位距应用鲁棒归一化，以处理扩散训练中的长尾潜在特征分布。
采用固定 EDM 超参数的扩散采样，结合无分类器引导的文本条件生成，在自解码空间进行潜在扩散。
通过将非刚性对象分解为具有学习体积蒙皮（LBS）的刚性分量并逐步精细化姿态来处理。

实验结果

研究问题

RQ1一个从二维观测学习的三维自解码器是否能够提供适合扩散基础的紧凑潜在空间，用于三维生成？
RQ2中介体积潜在空间应如何正则化以支持在缺乏明确三维监督的情况下进行扩散？
RQ3该方法是否能够处理刚性与关节对象，并在训练阶段学习相机参数，而无需外部监督？
RQ4该方法如何扩展到大规模、真实世界的多类别数据集和视频数据？
RQ5扩散分辨率、采样步数和推理时间之间的权衡对高质量三维生成有何影响？

主要发现

方法 \| FID ↓ \| KID ↓ \| FID ↓ \| KID ↓	模型变体 \| PSNR ↑ \| LPIPS ↓	Direct Latent Sampling [63] \| 69.21 \| 73.74 \| 97.51 \| 69.22 \| 72.76 \| 53.68	Ours - 16 Steps \| 48.01 \| 49.49 \| 62.21 \| 39.94 \| 47.49 \| 32.44	Ours - 32 Steps \| 49.74 \| 46.2 \| 51.26 \| 28.45 \| 43.68 \| 31.7	Ours - 64 Steps \| 50.27 \| 47.72 \| 43.85 \| 23.91 \| 40.49 \| 29.37
π-GAN [5]	52.71	13.64	41.67	13.81
EG3D [6]	16.54	8.412	31.18	11.67
DiffRF [45]	15.95	7.935	27.06	10.03
Ours	11.28	4.714	18.44	6.854
Table: PSNR/LPIPS ablation (Ours)	27.719	6.255	-	-
- Multi-Frame Training	27.176	6.855	-	-
- Self-Attention	27.335	6.738	-	-
- Increased Depth	27.24	6.924	-	-
- Embedding Length (1024→64)	25.985	8.332	-	-
CelebV-Text (Large)	69.21	73.74	97.51	69.22	72.76	53.68
MVImgNet (Large)	-	-	-	-	-	-
Objaverse (Large)	-	-	-	-	-	-

该方法在合成多视数据集（PhotoShape Chairs、ABO Tables）上超越了最先进方法，FID/KID 指标提升明显（例如：Ours: Chairs 和 ABO Tables 的 FID 11.28，KID 4.714；18.44/6.854）。
在大规模数据集上，8^3 潜在分辨率的潜在扩散和最多 64 步的设置在约 8 秒一例的速度下实现强质量（相比于 16–64 步显示的不同增益）。
消融实验显示通过增加嵌入长度和多帧训练可获得显著增益；自注意力对数据集有依赖的益处；在中到高潜在分辨率下的扩散获得最佳结果。
直接的潜在采样在没有扩散的情况下表现不如基于扩散的采样，尤其在较大规模时（例如：直接潜在采样：CelebV 的 FID 为 69.21，而我们在 16–64 步的扩散为）。
带文本提示的条件生成（MVImgNet、Objaverse）产生合理的几何和深度，尽管某些细节可能因字幕对齐而缺失。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。