QUICK REVIEW

[论文解读] Semi-Supervised Deep Learning for Monocular Depth Map Prediction

Yevhen Kuznietsov, Jörg Stückler|arXiv (Cornell University)|Feb 9, 2017

Advanced Vision and Imaging参考文献 22被引用 90

一句话总结

本文提出一种半监督方法，将稀疏 LiDAR 深度监督与无监督立体图像对齐损失相结合，用于训练单目深度估计的深度残差编码器-解码器，在 KITTI 上达到最先进的结果。

ABSTRACT

Supervised deep learning often suffers from the lack of sufficient training data. Specifically in the context of monocular depth map prediction, it is barely possible to determine dense ground truth depth images in realistic dynamic outdoor environments. When using LiDAR sensors, for instance, noise is present in the distance measurements, the calibration between sensors cannot be perfect, and the measurements are typically much sparser than the camera images. In this paper, we propose a novel approach to depth map prediction from monocular images that learns in a semi-supervised way. While we use sparse ground-truth depth for supervised learning, we also enforce our deep network to produce photoconsistent dense depth maps in a stereo setup using a direct image alignment loss. In experiments we demonstrate superior performance in depth map prediction from single images compared to the state-of-the-art methods.

研究动机与目标

解决户外场景缺乏密集地面真实深度数据的问题。
结合稀疏的 LiDAR 测量与无监督立体线索。
开发一个将监督、无监督和正则化项结合在一起的半监督损失。
采用带有长跳跃连接的深度残差编码器-解码器以获得高细节深度地图。
展示在 KITTI 数据集上的最新性能并分析消融实验。

提出的方法

使用基于 ResNet-50 的带长跳跃连接的编码器-解码器，从单目 RGB 图像预测每个像素的倒深度。
使用统一的半监督损失进行训练，包含：(i) 从稀疏 LiDAR 投影的有监督深度残差，(ii) 跨立体对的无监督光度（图像对齐）损失，(iii) 深度平滑正则化项。
对有监督项使用 berHu 损失并设自适应 delta 以强调更大残差。
在不使用显式左右视差约束的情况下，强制左右视图之间的对称光度一致性。
使用 ImageNet 预训练编码器初始化，逐步淡入有监督项以帮助收敛。
在 KITTI 上使用标准度量（RMSE、RMSE log、阈值准确度、ARD、SRD）进行评估并与最先进方法比较。

实验结果

研究问题

RQ1能否有效地将 LiDAR 的稀疏地面真实深度与无监督立体光度损失相结合，以训练准确的单目深度预测器？
RQ2相较于纯监督或纯无监督方法，半监督框架是否能提升深度精度与收敛速度？
RQ3架构选择（长跳跃连接、BerHu 损失、对称损失）对深度图质量有何影响？
RQ4模型对 KITTI 以外的其他户外数据集的泛化能力如何？

主要发现

Approach	RMSE (lower is better)	RMSE (log) (lower is better)	delta<1.25 (higher is better)	delta<1.25^2 (higher is better)	delta<1.25^3 (higher is better)
本方法	4.621	0.189	0.862	0.960	0.986
本方法，只有监督	4.815	0.194	0.845	0.957	0.987
Godard et al. [9]	5.849	0.242	0.818	0.929	0.966
Godard 等人 [9] + CS + 后处理	5.381	0.224	0.843	0.941	0.972

提出的半监督方法在 KITTI 上实现了最先进的深度预测，在多个指标上胜过先前方法。
使用无监督图像对齐损失提升了性能，尤其在地面真值稀疏的远距离。
监督项中的 BerHu 损失比 L2 损失产生更干净、噪声更少的深度图。
长跳跃连接和无监督项中的高斯平滑有助于更快收敛和深度图细节的提升。
完全半监督模型（OURS）在 0-80 m KITTI 测试（上限 80 m）上达到 RMSE 4.621，RMSE log 0.189，delta<1.25 0.862，delta<1.25^2 0.960，delta<1.25^3 0.986。
纯监督变体表现较差（RMSE 4.815，RMSE log 0.194，delta<1.25 0.845，delta<1.25^2 0.957，delta<1.25^3 0.987）。
纯无监督变体在 KITTI 0-80 m 上表现不佳（RMSE 8.700，RMSE log 0.367，delta<1.25 0.752，delta<1.25^2 0.904，delta<1.25^3 0.952）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。