Skip to main content
QUICK REVIEW

[论文解读] 3D Object Reconstruction from a Single Depth View with Adversarial Learning

Bo Yang, Hongkai Wen|arXiv (Cornell University)|Aug 26, 2017
Advanced Vision and Imaging参考文献 42被引用 27
一句话总结

该论文提出3D-RecGAN,一种生成对抗网络,通过结合条件生成对抗网络与自编码器,从单个深度视图重建完整的3D物体形状。在64³分辨率下,该方法在类别特定和跨类别重建任务中均达到最先进性能,且无需类别标签或多视角输入。

ABSTRACT

In this paper, we propose a novel 3D-RecGAN approach, which reconstructs the complete 3D structure of a given object from a single arbitrary depth view using generative adversarial networks. Unlike the existing work which typically requires multiple views of the same object or class labels to recover the full 3D geometry, the proposed 3D-RecGAN only takes the voxel grid representation of a depth view of the object as input, and is able to generate the complete 3D occupancy grid by filling in the occluded/missing regions. The key idea is to combine the generative capabilities of autoencoders and the conditional Generative Adversarial Networks (GAN) framework, to infer accurate and fine-grained 3D structures of objects in high-dimensional voxel space. Extensive experiments on large synthetic datasets show that the proposed 3D-RecGAN significantly outperforms the state of the art in single view 3D object reconstruction, and is able to reconstruct unseen types of objects. Our code and data are available at: https://github.com/Yang7879/3D-RecGAN.

研究动机与目标

  • 为解决从单个部分深度视图重建完整3D物体几何结构的挑战,该问题因遮挡而具有固有歧义性。
  • 克服传统方法(如泊松重建)和低分辨率深度学习模型在恢复细粒度结构方面的局限性。
  • 开发一种可泛化的3D重建框架,可在不同物体类别间通用,且在训练和推理阶段均无需类别标签。
  • 通过使用判别器中的潜在分布而非二元真实/虚假标签,稳定高维3D体素空间中的GAN训练。
  • 通过端到端可训练的生成建模,实现从单个2.5D深度输入完成高分辨率(64³)3D形状补全。

提出的方法

  • 该模型使用3D卷积自编码器将单个深度视图编码为表示一般3D几何结构的低维潜在向量。
  • 解码器从潜在向量重建完整的3D占据网格,生成粗略的3D形状。
  • 条件判别器被训练以区分真实3D形状与生成的形状,利用真实和生成形状的潜在分布来稳定训练过程。
  • 对抗性训练通过为重建形状添加细粒度结构细节,进一步优化自编码器的输出。
  • 该框架为端到端可训练,直接在深度视图的体素网格表示上运行,无需物体类别标签或多视角输入。
  • 与使用二元标签相比,判别器中使用潜在分布可提高训练稳定性,防止在高维3D空间中发生GAN崩溃。

实验结果

研究问题

  • RQ1能否仅使用单个深度视图重建具有细粒度细节的完整高分辨率3D形状?
  • RQ2将自编码器与条件生成对抗网络结合,相比独立的自编码器或生成对抗网络,如何提升3D形状补全性能?
  • RQ3该模型是否能在训练阶段无类别标签的情况下泛化到未见过的物体类别?
  • RQ4在判别器中使用潜在分布是否能提升3D生成对抗网络中的训练稳定性和重建质量?
  • RQ5在跨类别重建中,当测试集包含训练阶段未见的物体类型时,该模型表现如何?

主要发现

  • 在椅子类别上,3D-RecGAN的平均交并比(IoU)达到0.661,显著优于最先进方法Varley等人(IoU 0.564)。
  • 在多类别测试(椅子、凳子、马桶)中,3D-RecGAN的IoU达到0.554,优于Varley等人(0.493)和3D-RecAE(0.514)。
  • 在跨类别重建中,模型在单一类别上进行训练并在五个其他类别上进行测试时,平均IoU分别为0.356(组1)、0.369(组2)和0.351(组3),表现出强大的泛化能力。
  • 在多类别测试中,3D-RecGAN的Chamfer距离(CE损失)为0.117,低于Varley等人的0.125,表明其形状保真度更优。
  • 使用判别器中的潜在分布可实现更稳定的训练,防止GAN崩溃,而二元标签方案在高维3D空间中常失败。
  • 3D-RecGAN成功重建了椅子和凳子中的细粒度结构(如椅腿和支撑结构),即使这些结构在输入深度视图中部分被遮挡。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。