QUICK REVIEW

[论文解读] Learning Monocular Depth by Distilling Cross-domain Stereo Networks

Xiaoyang Guo, Hongsheng Li|arXiv (Cornell University)|Aug 20, 2018

Advanced Vision and Imaging参考文献 4被引用 35

一句话总结

本文提出了一种新颖的单目深度估计框架，通过利用在合成数据上预训练的跨域立体匹配网络的知识蒸馏，来监督单目深度网络，有效缓解了合成数据与真实数据之间的域差距。该方法通过利用立体网络作为代理，并引入一种无监督微调策略，显著提升了遮挡处理能力和边界清晰度，在KITTI数据集上实现了最先进性能。

ABSTRACT

Monocular depth estimation aims at estimating a pixelwise depth map for a single image, which has wide applications in scene understanding and autonomous driving. Existing supervised and unsupervised methods face great challenges. Supervised methods require large amounts of depth measurement data, which are generally difficult to obtain, while unsupervised methods are usually limited in estimation accuracy. Synthetic data generated by graphics engines provide a possible solution for collecting large amounts of depth data. However, the large domain gaps between synthetic and realistic data make directly training with them challenging. In this paper, we propose to use the stereo matching network as a proxy to learn depth from synthetic data and use predicted stereo disparity maps for supervising the monocular depth estimation network. Cross-domain synthetic data could be fully utilized in this novel framework. Different strategies are proposed to ensure learned depth perception capability well transferred across different domains. Our extensive experiments show state-of-the-art results of monocular depth estimation on KITTI dataset.

研究动机与目标

解决单目深度估计中合成数据与真实世界深度数据之间的域差距问题。
克服需要昂贵真实深度标注的监督方法，以及泛化能力差和遮挡误差严重的无监督方法的局限性。
利用在合成数据上训练的立体匹配网络所具备的强大泛化能力，指导单目深度学习。
开发一种蒸馏流程，利用合成数据作为代理，将深度感知知识从立体网络迁移至单目网络。
通过引入新颖的微调策略，提升遮挡处理能力和边界保持性，从而在真实世界基准（如KITTI）上实现更高性能。

提出的方法

在合成Scene Flow数据上训练一个立体匹配网络（DispNet变体），以预测视差图和遮挡掩码。
使用一种新型无监督损失函数，在真实KITTI数据上对立体网络进行微调，该损失函数显式处理遮挡问题并改进平滑性正则化。
使用微调后的立体网络作为教师模型，通过知识蒸馏监督单目深度估计网络。
对立体输入应用数据增强（裁剪、缩放）以提升鲁棒性并减少过拟合。
引入一种置信度感知的监督机制，过滤来自立体网络的噪声预测，提升蒸馏质量。
端到端训练单目深度网络，利用来自立体网络的蒸馏监督，实现对真实世界场景的强泛化能力。

实验结果

研究问题

RQ1能否在真实场景中，将一个在合成数据上预训练的立体匹配网络作为有效的代理，用于监督单目深度估计？
RQ2在不依赖真实深度标注的情况下，如何有效缓解单目深度估计中合成数据与真实数据之间的域差距？
RQ3何种微调策略能够提升单目深度估计的泛化能力并实现更清晰的预测，特别是在遮挡区域？
RQ4与直接在真实数据上训练单目网络相比，从在合成数据上训练的立体网络蒸馏知识是否能在准确性和边界保持性方面表现更优？
RQ5所提出的流程是否能泛化到KITTI以外的数据集（如Make3D和Cityscapes），且仅需极少调整？

主要发现

所提方法在KITTI数据集上实现了最先进性能，Eigen划分下的平均绝对误差（Abs）为0.061，相对误差（Rel）为0.144。
无监督微调策略显著提升了遮挡处理能力和边界清晰度，无论在定量还是定性指标上均优于先前的无监督方法。
即使仅使用100张真实图像进行监督微调，立体模型（StereoSupFt100）的表现也优于无监督微调版本（StereoUnsupFt），证明了微调的有效性。
蒸馏后的单目深度模型（StereoUnsupFt→Mono）在KITTI上的平均绝对误差为0.105，相对误差为0.189，超越了先前的最先进方法。
该流程在其他数据集上也表现出良好的泛化能力：在Make3D和Cityscapes上取得了具有竞争力的结果，表明其在不同域之间具有强大的可迁移性。
当使用更先进的立体网络（如PSMNet）作为代理时，性能进一步提升，表明该框架可扩展以适配未来立体匹配技术的发展。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。