QUICK REVIEW

[论文解读] Learning a Probabilistic Latent Space of Object Shapes via 3D Generative-Adversarial Modeling

Jiajun Wu, Chengkai Zhang|arXiv (Cornell University)|Oct 24, 2016

Image Processing and 3D Reconstruction被引用 1,562

一句话总结

本文提出了 3D-GAN，从潜在空间生成高质量的 3D 体素对象，并在此基础上扩展为 3D-VAE-GAN，将 2D 图像映射到 3D 对象，从而实现无监督的形状学习和单图像重建。

ABSTRACT

We study the problem of 3D object generation. We propose a novel framework, namely 3D Generative Adversarial Network (3D-GAN), which generates 3D objects from a probabilistic space by leveraging recent advances in volumetric convolutional networks and generative adversarial nets. The benefits of our model are three-fold: first, the use of an adversarial criterion, instead of traditional heuristic criteria, enables the generator to capture object structure implicitly and to synthesize high-quality 3D objects; second, the generator establishes a mapping from a low-dimensional probabilistic space to the space of 3D objects, so that we can sample objects without a reference image or CAD models, and explore the 3D object manifold; third, the adversarial discriminator provides a powerful 3D shape descriptor which, learned without supervision, has wide applications in 3D object recognition. Experiments demonstrate that our method generates high-quality 3D objects, and our unsupervisedly learned features achieve impressive performance on 3D object recognition, comparable with those of supervised learning methods.

研究动机与目标

激发学习一个能够产生多样且逼真的三维对象形状的生成模型。
提出一个 3D-GAN 框架，使用体积卷积神经网络和对抗训练将潜在向量映射到 64^3 体素对象。
证明判别器能够学习有用的无监督 3D 形状表示用于识别。
扩展到 3D-VAE-GAN，以实现从 2D 图像重建以及从图像到 3D 形状的潜在空间映射。

提出的方法

引入 3D-GAN：生成器 G 将一个 200 维潜在向量 z 映射到一个 64×64×64 的体素对象；判别器 D 使用全卷积网络对真实对象与生成对象进行评分。
使用对抗损失 L3D-GAN = log D(x) + log(1 − D(G(z))) 进行训练。
采用自适应训练，若判别器在上一批次中的准确率 ≤ 80% 才进行更新，以稳定训练。
通过添加将 2D 图像映射到潜在向量 z 的图像编码器 E，扩展为 3D-VAE-GAN，并优化综合损失 L = L3D-GAN + α1 L_KL + α2 L_recon。
L_KL 强制 q(z|y) 遵循先验 p(z)；L_recon 使 ||G(E(y)) − x||2 最小化，以实现 3D 重建。
为 3D-VAE-GAN 训练，从 SUN 室内图像跨越多视角进行 3D 形状的渲染训练。

实验结果

研究问题

RQ13D-GAN 是否能够学习一个概率潜在空间，在不依赖显式部件建模的情况下生成新颖且高质量的 3D 对象？
RQ2对抗学习得到的 3D 表现是否能够为 3D 形状分类提供具有竞争力的无监督特征？
RQ33D-VAE-GAN 能否将 2D 图像映射到相应的 3D 形状，从而实现单图像 3D 重建？
RQ4在学习得到的潜在空间和判别器激活中存在哪些语义结构，能够反映对象部件和类别？

主要发现

3D-GAN 能从潜在向量生成高质量、分辨率很高的 3D 对象，超过以往的概率方法。
判别器产生无监督但有效的 3D 形状特征，达到有竞争力的 3D 对象分类性能，优于若干其他无监督方法。
3D-VAE-GAN 能从 2D 图像重建 3D 对象，并在潜在空间中展示形状算术和插值。
对潜在空间的分析揭示了语义上有意义的维度、跨类别及类别内的平滑插值，以及与连贯对象部件相对应的神经元激活。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。