QUICK REVIEW

[论文解读] Rethinking Monocular Depth Estimation with Adversarial Training

Richard J. Chen, Faisal Mahmood|arXiv (Cornell University)|Aug 22, 2018

Advanced Vision and Imaging参考文献 61被引用 39

一句话总结

本文提出了一种用于单目深度估计的条件生成对抗网络（conditional GAN）框架，该框架用局部图像块级别的对抗损失替代了传统的像素级损失函数，以提升上下文感知能力和结构细节。通过训练生成器生成逼真的深度图，并训练判别器区分真实与生成的深度图像块，该方法在 NYUv2、Make3D 和 KITTI 数据集上均实现了最先进性能，相比先前方法将相对误差降低了数倍。

ABSTRACT

Monocular depth estimation is an extensively studied computer vision problem with a vast variety of applications. Deep learning-based methods have demonstrated promise for both supervised and unsupervised depth estimation from monocular images. Most existing approaches treat depth estimation as a regression problem with a local pixel-wise loss function. In this work, we innovate beyond existing approaches by using adversarial training to learn a context-aware, non-local loss function. Such an approach penalizes the joint configuration of predicted depth values at the patch-level instead of the pixel-level, which allows networks to incorporate more global information. In this framework, the generator learns a mapping between RGB images and its corresponding depth map, while the discriminator learns to distinguish depth map and RGB pairs from ground truth. This conditional GAN depth estimation framework is stabilized using spectral normalization to prevent mode collapse when learning from diverse datasets. We test this approach using a diverse set of generators that include U-Net and joint CNN-CRF. We benchmark this approach on the NYUv2, Make3D and KITTI datasets, and observe that adversarial training reduces relative error by several fold, achieving state-of-the-art performance.

研究动机与目标

解决传统局部像素级损失函数在单目深度估计中的局限性，这些损失函数无法捕捉高阶统计特性和全局上下文信息。
通过对抗训练引入非局部上下文感知损失函数，以提升深度估计的准确性。
证明对抗训练在多种网络架构（包括 U-Net 和 CNN-CRF 模型）上的有效性。
通过谱归一化稳定训练过程，防止在多样化数据集上出现模式崩溃。
在 NYUv2、Make3D 和 KITTI 等基准数据集上实现最先进性能。

提出的方法

该框架采用条件生成对抗网络设置，其中生成器将 RGB 图像映射为深度图，判别器则评估深度图像块的真实性。
判别器被训练以区分来自预测结果的深度图像块是真实（真实深度图）还是伪造（生成的深度图），从而促使生成器产生更具真实感的深度配置。
采用图像块级别的对抗损失，惩罚深度值的联合配置而非单个像素，从而更好地建模全局场景结构。
应用谱归一化以稳定训练过程，并防止在多样化数据集上的对抗学习中出现模式崩溃。
该方法在两种生成器架构上进行评估：U-Net 和联合 CNN-CRF，以实现对不同网络结构的消融分析。
训练过程中使用数据增强技术，包括随机裁剪和水平翻转，评估在 NYUv2、Make3D 和 KITTI 的标准划分数据集上进行。

实验结果

研究问题

RQ1使用图像块级别判别器的对抗训练是否能够超越局部像素级损失，从而提升深度估计性能？
RQ2当应用于 U-Net 和 CNN-CRF 等不同生成器架构时，对抗训练对性能有何影响？
RQ3引入非局部对抗损失是否能带来比标准 L1/L2 损失更清晰、更具上下文一致性的深度预测？
RQ4谱归一化是否能有效稳定在多样化真实世界数据集上的对抗训练过程？
RQ5对抗训练在 NYUv2、Make3D 和 KITTI 等标准基准数据集上在多大程度上降低了相对误差并提升了准确性？

主要发现

对抗训练的 U-Net 在 NYUv2 上达到 0.114 的相对误差，在 Make3D 上为 0.0646，在 KITTI 上为 0.061，优于 Xu 等人 [57] 提出的最先进方法。
与非对抗训练的 U-Net 相比，对抗训练的 U-Net 在前景和背景物体中产生了更清晰的边缘细节并减少了模糊。
在所有数据集上，对抗训练均将相对误差降低了数倍，显著优于基线模型。
对抗训练的 CNN-CRF 仅在相对误差上带来微小改进，并在较高阈值下准确率下降，可能由于超像素级别损失和训练集较小所致。
定性结果表明，对抗训练增强了深度预测的结构一致性和真实感，尤其在复杂场景中表现更优。
该框架在 NYUv2、Make3D 和 KITTI 上均实现了最先进性能，验证了图像块级别对抗损失在上下文感知深度估计中的有效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。