QUICK REVIEW

[论文解读] MegaDepth: Learning Single-View Depth Prediction from Internet Photos

Zhengqi Li, Noah Snavely|arXiv (Cornell University)|Apr 2, 2018

Advanced Vision and Imaging参考文献 40被引用 65

一句话总结

作者提出 MegaDepth，一个来自互联网图片集合的基于大规模深度数据集，利用 SfM+MVS，通过语义过滤和序数数据对深度图进行 refine，并训练能够在新场景和其他数据集上不在训练中见过它们的情况下也具有良好泛化能力的 CNN。

ABSTRACT

Single-view depth prediction is a fundamental problem in computer vision. Recently, deep learning methods have led to significant progress, but such methods are limited by the available training data. Current datasets based on 3D sensors have key limitations, including indoor-only images (NYU), small numbers of training examples (Make3D), and sparse sampling (KITTI). We propose to use multi-view Internet photo collections, a virtually unlimited data source, to generate training data via modern structure-from-motion and multi-view stereo (MVS) methods, and present a large depth dataset called MegaDepth based on this idea. Data derived from MVS comes with its own challenges, including noise and unreconstructable objects. We address these challenges with new data cleaning methods, as well as automatically augmenting our data with ordinal depth relations generated using semantic segmentation. We validate the use of large amounts of Internet data by showing that models trained on MegaDepth exhibit strong generalization-not only to novel scenes, but also to other diverse datasets including Make3D, KITTI, and DIW, even when no images from those datasets are seen during training.

研究动机与目标

利用大规模的互联网照片集合，通过结构从运动和多视图立体生成用于单视图深度预测的训练数据。
开发数据清洗和增强技术，以处理嘈杂的 MVS 输出和动态物体。
训练一个从单张图像预测深度的卷积神经网络，使其对未见过的位置和数据集具有泛化能力。
证明在 MegaDepth 上训练的模型在性能上优于或泛化能力更强，优于仅在传统深度数据集上训练的模型。

提出的方法

使用 Colmap，从地标的 Flickr 图像构建三维 SfM+MVS 重建，以获得大量图像的深度图。
通过保守的 MVS 更新和中值滤波对深度图进行细化，以减少离群点。
使用语义分割（PSPNet）将前景/背景/天空分离，并对前景区域的深度进行过滤。
从语义和几何线索自动生成序深度关系，为额外的训练信号提供信息。
训练一个深度预测网络（在多种测试选项中为 hourglass 架构之一），在对数深度域采用尺度不变损失，叠加多尺度梯度项和序深度损失。
在 Make3D、KITTI 和 DIW 上评估泛化能力，而不在这些数据集上进行训练；如有需要，可在特定数据集上进行微调。

实验结果

研究问题

RQ1来自互联网照片集合的海量、较松散监督的深度数据是否能够训练出具有强泛化能力的单视图深度预测模型？
RQ2需要哪些数据清洗和增强策略才能将嘈杂的 MVS 输出转化为有用的训练数据？
RQ3将序深度信息引入是否能提升对难以重建或动态物体的深度预测？
RQ4在训练期间未见过这些数据集的图像的情况下，MegaDepth 训练的模型在训练域之外的数据集（Make3D、KITTI、DIW）上的表现如何迁移？

主要发现

一个大型的 MegaDepth 数据集（约 13 万张可用图像，来自约 200 个三维模型）支持训练单视图深度预测模型。
深度细化（保守的 MVS 更新和语义过滤）显著提高了对外部数据集的泛化能力。
联合损失：包含尺度不变数据项、多尺度梯度项和鲁棒的序深度项，提升深度精度并保持结构，尤其对具挑战性的物体。
在 MegaDepth 上训练的模型相对于仅在传统数据集上训练的模型，在未见场景和 Make3D、KITTI、DIW 上的泛化能力更强。
对 Make3D 或 KITTI 进行微调的 MegaDepth 训练模型，在非领域特定训练方案中达到最先进的性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。