QUICK REVIEW

[论文解读] Self-Supervised Joint Learning Framework of Depth Estimation via Implicit Cues

Jianrong Wang, Ge Zhang|arXiv (Cornell University)|Jun 17, 2020

Advanced Vision and Imaging参考文献 44被引用 23

一句话总结

该论文提出了一种用于单目深度估计的自监督联合学习框架，通过利用连续视频帧中的时空线索，引入了两个新颖模块：隐式深度线索提取器（IDCE），用于从浅层特征图中捕捉静态与动态深度信号；以及高维注意力模块（HAM），用于优化全局姿态估计。该方法通过提升特征优化中的几何一致性与鲁棒性，减少了深度不连续性和运动伪影，在KITTI和Make3D基准上实现了最先进性能。

ABSTRACT

In self-supervised monocular depth estimation, the depth discontinuity and motion objects' artifacts are still challenging problems. Existing self-supervised methods usually utilize a single view to train the depth estimation network. Compared with static views, abundant dynamic properties between video frames are beneficial to refined depth estimation, especially for dynamic objects. In this work, we propose a novel self-supervised joint learning framework for depth estimation using consecutive frames from monocular and stereo videos. The main idea is using an implicit depth cue extractor which leverages dynamic and static cues to generate useful depth proposals. These cues can predict distinguishable motion contours and geometric scene structures. Furthermore, a new high-dimensional attention module is introduced to extract clear global transformation, which effectively suppresses uncertainty of local descriptors in high-dimensional space, resulting in a more reliable optimization in learning framework. Experiments demonstrate that the proposed framework outperforms the state-of-the-art(SOTA) on KITTI and Make3D datasets.

研究动机与目标

为解决自监督单目深度估计中因前后帧间动态与静态线索利用不足而引起的深度不连续性和运动伪影问题。
通过利用视频序列中的时间一致性，提升物体边界附近及运动物体的深度估计精度。
在高维特征空间中增强姿态估计的鲁棒性，降低不确定性并提升视图重建质量。
设计一种可泛化的框架，可无缝集成至现有自监督深度估计流水线中，无需架构重构。

提出的方法

提出隐式深度线索提取器（IDCE），通过级联瓶颈块处理堆叠连续帧的单元流特征，提取隐式的静态与动态深度线索。
基于单元流中卷积激活模式的统计分析，生成深度预测建议，引导DepthNet在动态物体附近实现更精确的预测，并在静态场景中实现更平滑的过渡。
提出高维注意力模块（HAM），通过卷积与高斯核操作，从单元流特征中提取全局变换模式，抑制高维空间中局部描述子的不确定性。
将IDCE与HAM集成至与DepthNet和PoseNet联合学习的框架中，其中IDCE连接至DepthNet解码器，而HAM则增强PoseNet的特征表示，以实现更优的视图重建。
采用基于视图重建损失的自监督训练目标，通过预测的深度与相机姿态最小化扭曲源视图与目标视图之间的像素级差异。
支持单目与双目视频输入，IDCE在训练阶段激活于时序帧，且可适配至静态帧的推理过程。

实验结果

研究问题

RQ1能否从连续视频帧中提取的隐式动态与静态线索提升深度估计精度，特别是在物体边界附近及对运动物体的处理上？
RQ2是否能通过建模单元流特征中全局变换的高维注意力机制，降低姿态估计中的不确定性并提升重建质量？
RQ3所提出的IDCE与HAM模块是否可泛化至其他自监督深度估计网络，而无需进行架构修改？
RQ4单元流中时间与空间线索的融合如何影响在KITTI与Make3D等标准基准上的性能表现？

主要发现

所提框架在KITTI数据集上达到最先进性能，高分辨率（320×1024）输入下，绝对相对误差（Abs Rel）为0.101，δ < 1.25准确率为0.898。
在Make3D数据集上，方法实现Abs Rel为0.106，δ < 1.25为0.890，展现出在不同数据集间的强大泛化能力。
HAM模块通过可视化显示更平滑的特征统计特性，有效降低特征不确定性，并提升姿态估计鲁棒性，尤其在噪声或复杂单元流空间中表现更优。
IDCE模块有效减少运动模糊，并提升物体边界处的轮廓锐度，定性对比结果表明，加入IDCE后深度图更加清晰。
消融实验表明，HAM在不同PoseNet上均能持续提升性能，而如CAM等简单注意力模块则因对噪声特征敏感，在某些网络上导致性能下降。
高分辨率训练（320×1024）可提升性能，但训练时间增至约49小时，表明精度与效率之间存在权衡。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。