Skip to main content
QUICK REVIEW

[论文解读] Learning a Probabilistic Latent Space of Object Shapes via 3D Generative-Adversarial Modeling

Jiajun Wu, Chengkai Zhang|arXiv (Cornell University)|Oct 24, 2016
Image Processing and 3D Reconstruction被引用 1,562
一句话总结

本文提出了 3D-GAN,从潜在空间生成高质量的 3D 体素对象,并在此基础上扩展为 3D-VAE-GAN,将 2D 图像映射到 3D 对象,从而实现无监督的形状学习和单图像重建。

ABSTRACT

We study the problem of 3D object generation. We propose a novel framework, namely 3D Generative Adversarial Network (3D-GAN), which generates 3D objects from a probabilistic space by leveraging recent advances in volumetric convolutional networks and generative adversarial nets. The benefits of our model are three-fold: first, the use of an adversarial criterion, instead of traditional heuristic criteria, enables the generator to capture object structure implicitly and to synthesize high-quality 3D objects; second, the generator establishes a mapping from a low-dimensional probabilistic space to the space of 3D objects, so that we can sample objects without a reference image or CAD models, and explore the 3D object manifold; third, the adversarial discriminator provides a powerful 3D shape descriptor which, learned without supervision, has wide applications in 3D object recognition. Experiments demonstrate that our method generates high-quality 3D objects, and our unsupervisedly learned features achieve impressive performance on 3D object recognition, comparable with those of supervised learning methods.

研究动机与目标

  • 激发学习一个能够产生多样且逼真的三维对象形状的生成模型。
  • 提出一个 3D-GAN 框架,使用体积卷积神经网络和对抗训练将潜在向量映射到 64^3 体素对象。
  • 证明判别器能够学习有用的无监督 3D 形状表示用于识别。
  • 扩展到 3D-VAE-GAN,以实现从 2D 图像重建以及从图像到 3D 形状的潜在空间映射。

提出的方法

  • 引入 3D-GAN:生成器 G 将一个 200 维潜在向量 z 映射到一个 64×64×64 的体素对象;判别器 D 使用全卷积网络对真实对象与生成对象进行评分。
  • 使用对抗损失 L3D-GAN = log D(x) + log(1 − D(G(z))) 进行训练。
  • 采用自适应训练,若判别器在上一批次中的准确率 ≤ 80% 才进行更新,以稳定训练。
  • 通过添加将 2D 图像映射到潜在向量 z 的图像编码器 E,扩展为 3D-VAE-GAN,并优化综合损失 L = L3D-GAN + α1 L_KL + α2 L_recon。
  • L_KL 强制 q(z|y) 遵循先验 p(z);L_recon 使 ||G(E(y)) − x||2 最小化,以实现 3D 重建。
  • 为 3D-VAE-GAN 训练,从 SUN 室内图像跨越多视角进行 3D 形状的渲染训练。

实验结果

研究问题

  • RQ13D-GAN 是否能够学习一个概率潜在空间,在不依赖显式部件建模的情况下生成新颖且高质量的 3D 对象?
  • RQ2对抗学习得到的 3D 表现是否能够为 3D 形状分类提供具有竞争力的无监督特征?
  • RQ33D-VAE-GAN 能否将 2D 图像映射到相应的 3D 形状,从而实现单图像 3D 重建?
  • RQ4在学习得到的潜在空间和判别器激活中存在哪些语义结构,能够反映对象部件和类别?

主要发现

  • 3D-GAN 能从潜在向量生成高质量、分辨率很高的 3D 对象,超过以往的概率方法。
  • 判别器产生无监督但有效的 3D 形状特征,达到有竞争力的 3D 对象分类性能,优于若干其他无监督方法。
  • 3D-VAE-GAN 能从 2D 图像重建 3D 对象,并在潜在空间中展示形状算术和插值。
  • 对潜在空间的分析揭示了语义上有意义的维度、跨类别及类别内的平滑插值,以及与连贯对象部件相对应的神经元激活。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。