[论文解读] Forget About the LiDAR: Self-Supervised Depth Estimators with MED Probability Volumes
本文提出 FAL-net,一种轻量级的自监督深度估计器,使用 Mirrored Exponential Disparity (MED) 概率体积和 Mirrored Occlusion Module (MOM) 来处理遮挡,在 KITTI、CityScapes 和 Make3D 上以更少的参数实现更快的推断,达到SOTA水平。
Self-supervised depth estimators have recently shown results comparable to the supervised methods on the challenging single image depth estimation (SIDE) task, by exploiting the geometrical relations between target and reference views in the training data. However, previous methods usually learn forward or backward image synthesis, but not depth estimation, as they cannot effectively neglect occlusions between the target and the reference images. Previous works rely on rigid photometric assumptions or the SIDE network to infer depth and occlusions, resulting in limited performance. On the other hand, we propose a method to "Forget About the LiDAR" (FAL), for the training of depth estimators, with Mirrored Exponential Disparity (MED) probability volumes, from which we obtain geometrically inspired occlusion maps with our novel Mirrored Occlusion Module (MOM). Our MOM does not impose a burden on our FAL-net. Contrary to the previous methods that learn SIDE from stereo pairs by regressing disparity in the linear space, our FAL-net regresses disparity by binning it into the exponential space, which allows for better detection of distant and nearby objects. We define a two-step training strategy for our FAL-net: It is first trained for view synthesis and then fine-tuned for depth estimation with our MOM. Our FAL-net is remarkably light-weight and outperforms the previous state-of-the-art methods with 8x fewer parameters and 3x faster inference speeds on the challenging KITTI dataset. We present extensive experimental results on the KITTI, CityScapes, and Make3D datasets to verify our method's effectiveness. To the authors' best knowledge, the presented method performs the best among all the previous self-supervised methods until now.
研究动机与目标
- 通过利用几何关系,推动在没有 LiDAR 监督的情况下进行自监督的单张图像深度估计(SIDE)的研究。
- 提出 MED 概率体积,将深度表示为离散的指数空间,以更好地处理近处与远处物体。
- 引入 Mirrored Occlusion Module (MOM),用于生成更准确的遮挡图以提升深度学习效果。
- 展示两步训练策略(视图合成然后进行 SIDE 微调)在轻量级网络下也能取得高性能。
提出的方法
- 提出 FAL-net,一个6阶段自编码器,将左视图图像映射到 MED 深度概率体积,并使用按通道 softmax 获得 MED 分布。
- 将视差按指数方式离散化(MED)以形成深度箱,从而更好地覆盖近处和远处物体(式(2))。
- 利用 MED 体积通过像素扭曲和注意力加权求和合成右视图(式(3))。
- 引入 Mirrored Occlusion Module (MOM),通过在视图之间交叉扭曲 MED 体积来计算左/右遮挡掩码(式(4))。
- 分两步训练:首先进行视图合成,使用标准重建损失和感知损失;然后在深度上微调,使用无遮挡重建、平滑性和镜像损失(式(5)–(8))。
- 应用基于 VGG19 特征的无遮挡重建损失和感知损失,以及带 gamma 参数的边缘保持平滑性,并利用固定模型监督可见与遮挡区域的专用镜像损失。
实验结果
研究问题
- RQ1 MED 概率体积是否能通过更好地处理近处与远处物体的深度离散化来提升深度估计?
- RQ2通过显式建模视图之间的遮挡,Mirrored Occlusion Module 能否实现对深度学习的有效自监督?
- RQ3两步训练策略(先视图合成再用 MOM 做深度估计)是否优于端到端训练的自监督 SIDE?
- RQ4在标准数据集(KITTI、CityScapes、Make3D)上,与此前的自监督、半监督和全监督方法相比,提出的方法表现如何?
主要发现
- FAL-net 结合 MED 体积在 KITTI、CityScapes 和 Make3D 上达到了自监督方法中的最新结果。
- 该方法的参数量比先前的 SOTA 方法少大约 8 倍,在 KITTI 上推断速度大约快 3 倍。
- 指数型视差离散化(MED)相比线性间距提升深度估计,能够更好地表示近处和远处的物体。
- 带有 MOM 的两步训练策略通过提供遮挡感知的自监督,提升深度学习,特别是在左侧遮挡区域。
- 在 CityScapes 或 CityScapes 与 KITTI 联合数据上训练时,FAL-net 仍保持较强的泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。