[论文解读] Learning a Probabilistic Latent Space of Object Shapes via 3D Generative-Adversarial Modeling
本文提出了 3D-GAN,从潜在空间生成高质量的 3D 体素对象,并在此基础上扩展为 3D-VAE-GAN,将 2D 图像映射到 3D 对象,从而实现无监督的形状学习和单图像重建。
We study the problem of 3D object generation. We propose a novel framework, namely 3D Generative Adversarial Network (3D-GAN), which generates 3D objects from a probabilistic space by leveraging recent advances in volumetric convolutional networks and generative adversarial nets. The benefits of our model are three-fold: first, the use of an adversarial criterion, instead of traditional heuristic criteria, enables the generator to capture object structure implicitly and to synthesize high-quality 3D objects; second, the generator establishes a mapping from a low-dimensional probabilistic space to the space of 3D objects, so that we can sample objects without a reference image or CAD models, and explore the 3D object manifold; third, the adversarial discriminator provides a powerful 3D shape descriptor which, learned without supervision, has wide applications in 3D object recognition. Experiments demonstrate that our method generates high-quality 3D objects, and our unsupervisedly learned features achieve impressive performance on 3D object recognition, comparable with those of supervised learning methods.
研究动机与目标
- 激发学习一个能够产生多样且逼真的三维对象形状的生成模型。
- 提出一个 3D-GAN 框架,使用体积卷积神经网络和对抗训练将潜在向量映射到 64^3 体素对象。
- 证明判别器能够学习有用的无监督 3D 形状表示用于识别。
- 扩展到 3D-VAE-GAN,以实现从 2D 图像重建以及从图像到 3D 形状的潜在空间映射。
提出的方法
- 引入 3D-GAN:生成器 G 将一个 200 维潜在向量 z 映射到一个 64×64×64 的体素对象;判别器 D 使用全卷积网络对真实对象与生成对象进行评分。
- 使用对抗损失 L3D-GAN = log D(x) + log(1 − D(G(z))) 进行训练。
- 采用自适应训练,若判别器在上一批次中的准确率 ≤ 80% 才进行更新,以稳定训练。
- 通过添加将 2D 图像映射到潜在向量 z 的图像编码器 E,扩展为 3D-VAE-GAN,并优化综合损失 L = L3D-GAN + α1 L_KL + α2 L_recon。
- L_KL 强制 q(z|y) 遵循先验 p(z);L_recon 使 ||G(E(y)) − x||2 最小化,以实现 3D 重建。
- 为 3D-VAE-GAN 训练,从 SUN 室内图像跨越多视角进行 3D 形状的渲染训练。
实验结果
研究问题
- RQ13D-GAN 是否能够学习一个概率潜在空间,在不依赖显式部件建模的情况下生成新颖且高质量的 3D 对象?
- RQ2对抗学习得到的 3D 表现是否能够为 3D 形状分类提供具有竞争力的无监督特征?
- RQ33D-VAE-GAN 能否将 2D 图像映射到相应的 3D 形状,从而实现单图像 3D 重建?
- RQ4在学习得到的潜在空间和判别器激活中存在哪些语义结构,能够反映对象部件和类别?
主要发现
- 3D-GAN 能从潜在向量生成高质量、分辨率很高的 3D 对象,超过以往的概率方法。
- 判别器产生无监督但有效的 3D 形状特征,达到有竞争力的 3D 对象分类性能,优于若干其他无监督方法。
- 3D-VAE-GAN 能从 2D 图像重建 3D 对象,并在潜在空间中展示形状算术和插值。
- 对潜在空间的分析揭示了语义上有意义的维度、跨类别及类别内的平滑插值,以及与连贯对象部件相对应的神经元激活。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。