[论文解读] Learning to Generate and Reconstruct 3D Meshes with only 2D Supervision
本文提出了一种统一的深度学习框架,仅通过2D图像即可生成并重建3D网格形状,无需3D监督、姿态标注或多视角输入。通过使用带有方向性光照的可微渲染,模型利用明暗线索提升重建与生成性能,实现了与3D监督方法相当的最先进性能,同时采用网格表示而非体素,生成了更具视觉真实感的结果。
We present a unified framework tackling two problems: class-specific 3D reconstruction from a single image, and generation of new 3D shape samples. These tasks have received considerable attention recently; however, existing approaches rely on 3D supervision, annotation of 2D images with keypoints or poses, and/or training with multiple views of each object instance. Our framework is very general: it can be trained in similar settings to these existing approaches, while also supporting weaker supervision scenarios. Importantly, it can be trained purely from 2D images, without ground-truth pose annotations, and with a single view per instance. We employ meshes as an output representation, instead of voxels used in most prior work. This allows us to exploit shading information during training, which previous 2D-supervised methods cannot. Thus, our method can learn to generate and reconstruct concave object classes. We evaluate our approach on synthetic data in various settings, showing that (i) it learns to disentangle shape from pose; (ii) using shading in the loss improves performance; (iii) our model is comparable or superior to state-of-the-art voxel-based approaches on quantitative metrics, while producing results that are visually more pleasing; (iv) it still performs well when given supervision weaker than in prior works.
研究动机与目标
- 解决仅使用未标注2D图像进行3D网格生成与重建的挑战,无需3D监督或姿态标注。
- 实现从每个物体实例的单视角图像中进行学习,降低先前方法对强监督的依赖。
- 通过可微渲染在训练损失中利用明暗信息,提升泛化能力与形状细节。
- 证明基于网格的表示在视觉质量和几何保真度方面优于基于体素的表示。
- 展示仅从2D图像中端到端学习解耦的形状与姿态因子。
提出的方法
- 该框架采用可微渲染器,从3D网格重建结果生成带光照、带明暗的RGB图像,使明暗线索可反向传播。
- 采用类似变分自编码器的架构,端到端训练以重建输入图像,损失通过预测图像与真实图像之间的像素级差异计算。
- 训练期间使用方向性光照,提供丰富的明暗信号,并反向传播以优化网格。
- 模型学习到一个解耦的潜在空间,其中形状与姿态相互分离,支持重建与无条件生成。
- 输出表示采用网格而非体素,可支持任意表面朝向,并更好地捕捉凹结构。
- 该方法支持多种监督设置,包括弱监督设置,如单视角、未标注图像及无姿态标签。

实验结果
研究问题
- RQ1深度学习模型能否仅使用2D图像,在无任何3D监督或姿态标注的情况下学习重建与生成3D网格形状?
- RQ2与基于轮廓的监督相比,将方向性光照的明暗线索引入训练损失是否能提升3D重建与生成性能?
- RQ3在仅使用2D监督训练的情况下,基于网格的表示是否在视觉质量与几何精度方面优于基于体素的表示?
- RQ4在仅使用未配对的2D图像时,能在多大程度上端到端学习到解耦的形状与姿态因子?
- RQ5在监督逐步减弱的设置下(如无姿态标注的单视角训练),模型表现如何?
主要发现
- 该模型在定量指标上达到最先进性能,即使在使用明暗信息作为损失时,也优于使用深度监督训练的方法。
- 在损失中使用彩色方向性光照可显著提升重建精度,优于使用白色光照或仅轮廓监督,证明了明暗线索的价值。
- 模型成功学习到形状与姿态的解耦,表现为姿态预测准确率高且旋转误差低,尽管训练期间未使用真实姿态标签。
- 当在训练与测试中使用多视角图像时,性能显著提升,表明模型有效利用了多视角一致性。
- 与先前基于体素的方法相比,该方法生成的视觉效果更佳,尤其在捕捉凹面与复杂表面细节方面表现更优。
- 即使无3D监督,该模型的重建质量仍可与使用完整3D监督训练的最先进方法相媲美,尤其当损失中包含明暗信息时。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。