[论文解读] Unsupervised Generative 3D Shape Learning from Natural Images
该论文提出了一种在GAN框架内将生成分解为3D对象和可微分渲染器的完全无监督的方法,从而实现视角解耦的3D表示。
In this paper we present, to the best of our knowledge, the first method to learn a generative model of 3D shapes from natural images in a fully unsupervised way. For example, we do not use any ground truth 3D or 2D annotations, stereo video, and ego-motion during the training. Our approach follows the general strategy of Generative Adversarial Networks, where an image generator network learns to create image samples that are realistic enough to fool a discriminator network into believing that they are natural images. In contrast, in our approach the image generation is split into 2 stages. In the first stage a generator network outputs 3D objects. In the second, a differentiable renderer produces an image of the 3D objects from random viewpoints. The key observation is that a realistic 3D object should yield a realistic rendering from any plausible viewpoint. Thus, by randomizing the choice of the viewpoint our proposed training forces the generator network to learn an interpretable 3D representation disentangled from the viewpoint. In this work, a 3D representation consists of a triangle mesh and a texture map that is used to color the triangle surface by using the UV-mapping technique. We provide analysis of our learning approach, expose its ambiguities and show how to overcome them. Experimentally, we demonstrate that our method can learn realistic 3D shapes of faces by using only the natural images of the FFHQ dataset.
研究动机与目标
- 在没有3D或2D标注的情况下,展示从自然图像中无监督学习显式3D表示。
- 开发一个提供关于3D顶点坐标的精确梯度的可微分渲染器。
- 分析无监督3D学习中的歧义并提出先验以减轻它们。
- 展示来自多视角的真实渲染强制实现解耦的3D表示。
提出的方法
- 通过基于 StyleGAN 的生成器,从潜在向量生成3D场景(形状、纹理、背景)。
- 使用固定的、可微分的渲染器从随机视角渲染图像。
- 在 GAN 设置中让生成器对抗来自自然数据集的真实图像的判别器进行训练。
- 施加约束(形状金字塔、尺寸约束)以防止退化解和背景建模。
- 渲染一个两阶段过程:清晰渲染与软扩展相结合,以获得边界处的精确可微分性。
- 通过旋转对象同时保持相机固定来呈现视角,并裁剪背景以避免仅背景的简单解。
实验结果
研究问题
- RQ1一个生成模型是否可以在没有3D监督的情况下从自然图像中学习对象的显式3D几何?
- RQ2具有精确梯度的可微分渲染器是否能实现从2D图像中稳定的无监督3D形状学习?
- RQ3需要哪些先验或正则化来解决无监督3D形状学习固有的歧义?
- RQ4在无监督设置中,该方法在多大程度上能解耦3D形状与视角?
主要发现
- 一个完全无监督的管线仅使用自然图像,从 FFHQ 学习了真实的3D人脸。
- 一种新型可微分渲染器为3D顶点提供精确梯度,使训练稳定成为可能。
- 该方法展示了视角解耦的3D表示,具备清晰的3D形状和纹理输出。
- 形状金字塔和尺寸约束减少伪影,防止模型将背景建模为对象。
- 全面消融显示软渲染器对学习至关重要,而扩展的视角范围可能降低性能。
- 该方法产生解剖学上合理的3D人脸,并且身份与视角之间的潜在空间插值平滑。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。