[论文解读] 3D Shape Induction from 2D Views of Multiple Objects
本文提出投影生成对抗网络(PrGANs),一种从多个物体的2D轮廓图中无3D标注或视角信息的情况下学习3D形状生成模型的方法。通过将可微分投影模块集成到GAN框架中,PrGANs能够推断出解耦的3D形状与视角分布,从而实现仅用单张图像进行无监督3D重建和新视角生成,其性能可与在真实3D数据上训练的3D-GAN相媲美。
In this paper we investigate the problem of inducing a distribution over three-dimensional structures given two-dimensional views of multiple objects taken from unknown viewpoints. Our approach called "projective generative adversarial networks" (PrGANs) trains a deep generative model of 3D shapes whose projections match the distributions of the input 2D views. The addition of a projection module allows us to infer the underlying 3D shape distribution without using any 3D, viewpoint information, or annotation during the learning phase. We show that our approach produces 3D shapes of comparable quality to GANs trained on 3D data for a number of shape categories including chairs, airplanes, and cars. Experiments also show that the disentangled representation of 2D shapes into geometry and viewpoint leads to a good generative model of 2D shapes. The key advantage is that our model allows us to predict 3D, viewpoint, and generate novel views from an input image in a completely unsupervised manner.
研究动机与目标
- 从多个物体的2D轮廓图中学习3D形状的概率分布,无需3D标注或视角标签。
- 利用单一训练模型,实现从单张2D图像无监督推断3D形状与视角。
- 开发一种可在不同拓扑结构的形状类别间泛化的框架,例如椅子、飞机和汽车。
- 在2D形状表征中解耦几何与视角,以提升生成建模性能。
- 在完全无监督的前提下,实现从2D输入生成3D形状与新视角合成。
提出的方法
- 使用GAN框架训练3D形状的深度生成模型,其中引入可微分投影模块,将3D体素网格渲染为2D轮廓图。
- 投影模块近似渲染流程,实现从2D图像到3D体素表示的反向传播。
- 通过固定分辨率的3D体素网格表示3D形状,采用二值占用网格以确保实例间拓扑一致性。
- 生成器从随机噪声生成3D形状,投影模块从随机视角渲染这些形状,生成用于对抗训练的合成2D图像。
- 判别器区分真实2D图像与生成的2D投影,促使生成器学习生成其投影与输入数据分布匹配的3D形状。
- 通过对抗损失端到端训练模型,使几何与视角的解耦表征隐式地自然涌现。
实验结果
研究问题
- RQ1生成模型能否在无任何3D标注或视角标签的情况下,从2D轮廓图中学习到解耦的3D形状分布?
- RQ2即使仅在2D视图上进行训练,PrGAN能否生成与在真实3D数据上训练的GAN相媲美质量的3D形状?
- RQ3当在混合数据上进行训练时,模型能否泛化到具有可变拓扑结构的形状类别(如椅子和飞机)?
- RQ4模型能否从单张2D图像实现无监督3D重建与新视角生成?
- RQ5在缺乏真实监督的情况下,模型在单张输入图像中推断深度与视角的能力如何?
主要发现
- PrGAN在包括椅子、飞机和汽车在内的多个类别中,生成的3D形状质量与在真实3D数据上训练的GAN相当。
- 即使在混合多个类别的物体上进行训练,模型仍能成功诱导出丰富且多样的3D形状分布。
- 几何与视角的解耦表征使得从单张2D图像实现精确的无监督3D重建与新视角合成成为可能。
- 模型在未见类别上泛化良好,且在不同实例间保持一致的拓扑结构。
- 尽管由于轮廓化处理而难以捕捉隐藏内部结构,该方法在生成能力与泛化性能方面仍优于传统基于视角的方法。
- 该方法对未知视角与物体身份具有鲁棒性,无需监督即可学习3D形状与视角角度的联合分布。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。