QUICK REVIEW

[论文解读] Escaping Plato's Cave using Adversarial Training: 3D Shape From Unstructured 2D Image Collections.

Philipp Henzler, Niloy J. Mitra|arXiv (Cornell University)|Nov 28, 2018

Image Processing Techniques and Applications被引用 26

一句话总结

PLATONICGAN 通过对抗性训练从非结构化的 2D 图像集合中重建 3D 形状，其中生成器生成的 3D 形状在不同相机模型下的渲染图像与真实图像无法区分。该方法使用可微分渲染层（视觉轮廓、仅吸收、发射-吸收）来强制实现 2D-3D 一致性，在无需 3D 监督的情况下实现最先进性能，并在增加 3D 监督后超越了 3D 监督基线方法。

ABSTRACT

We introduce PLATONICGAN to discover the 3D structure of an object class from an unstructured collection of 2D images, i. e., neither any relation between the images is available nor additional information about the images is known. The key idea is to train a deep neural network to generate 3D shapes which rendered to images are indistinguishable from ground truth images (for a discriminator) under various camera models (i. e., rendering layers) and camera poses. Discriminating 2D images instead of 3D shapes allows tapping into unstructured 2D photo collections instead of relying on curated (e.g., aligned, annotated, etc.) 3D data sets. To establish constraints between 2D image observation and their 3D interpretation, we suggest a family of rendering layers that are effectively differentiable. This family includes visual hull, absorption-only (akin to x-ray), and emissionabsorption. We can successfully reconstruct 3D shapes from unstructured 2D images and extensively evaluate PLATONICGAN on a range of synthetic and real data sets achieving consistent improvements over baseline methods. We can also show that our method with additional 3D supervision further improves result quality and even surpasses the performance of 3D supervised methods.

研究动机与目标

从无结构化的 2D 图像集合中恢复 3D 形状结构，且无需图像对齐、标注或相机位姿信息。
通过训练一个生成模型来合成与真实图像无法区分的图像，实现从未经整理的照片集合中进行 3D 重建。
建立一个可微分的 3D 到 2D 渲染流程，以强制实现 3D 形状与其 2D 观测结果之间的几何一致性。
证明仅在 2D 图像上进行对抗性训练即可生成高质量的 3D 重建结果，甚至超越具有显式 3D 监督的方法。

提出的方法

训练一个生成对抗网络（GAN）框架，其中生成器生成 3D 形状，判别器评估渲染的 2D 图像与真实图像的差异。
引入可微分渲染层以模拟各种成像过程，包括视觉轮廓、仅吸收（类似 X 射线）和发射-吸收模型。
渲染层相对于 3D 形状参数是可微分的，从而实现从 2D 图像空间到 3D 形状空间的端到端反向传播。
优化生成器，使其生成的 3D 形状在多种相机位姿和模型下渲染出的图像能欺骗判别器。
该方法利用非结构化的 2D 图像集合，无需图像级别的对应关系或相机标定。
通过损失项引入额外的 3D 监督，进一步提升重建质量，超越无监督性能。

实验结果

研究问题

RQ1是否可以仅从无结构化的 2D 图像集合中实现 3D 形状重建，而无需任何 3D 监督或图像对齐？
RQ2可微分渲染层（如视觉轮廓、仅吸收）在对抗性训练中强制实现 2D-3D 一致性方面的有效性如何？
RQ3仅在 2D 图像上进行对抗性训练是否能够生成超越 3D 监督方法的 3D 重建结果？
RQ4在缺乏完整 3D 标注的情况下，添加弱 3D 监督在多大程度上能提升 3D 重建的质量？

主要发现

PLATONICGAN 仅通过在渲染图像上进行对抗性训练，成功从无结构化的 2D 图像集合中重建出 3D 形状。
该方法在合成数据集和真实世界数据集上均持续优于基线方法。
使用可微分渲染层可在无需相机位姿或图像对应关系显式监督的情况下，有效实现 2D-3D 一致性学习。
在增加 3D 监督后，PLATONICGAN 的性能超越了 3D 监督方法，证明了仅在 2D 图像上进行对抗性训练范式的有效性。
该方法在不同物体类别和成像条件下均表现出良好的泛化能力，包括不同相机模型和位姿。
消融研究证实，可微分渲染层对于从 2D 观测中学习几何结构至关重要。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。