[论文解读] HR-Depth: High Resolution Self-Supervised Monocular Depth Estimation
HR-Depth 提出了一种新颖的自监督单目深度估计网络,通过重新设计跳跃连接以减少语义-空间差距,并引入参数高效的特征融合挤压-激励(fSE)模块,从而提升高分辨率深度预测性能。该方法在 KITTI 数据集上实现了最先进性能,参数量显著减少,包括一个仅使用 3.1M 参数的轻量化变体,其在高分辨率下的精度与 Monodepth2 相当。
Self-supervised learning shows great potential in monoculardepth estimation, using image sequences as the only source ofsupervision. Although people try to use the high-resolutionimage for depth estimation, the accuracy of prediction hasnot been significantly improved. In this work, we find thecore reason comes from the inaccurate depth estimation inlarge gradient regions, making the bilinear interpolation er-ror gradually disappear as the resolution increases. To obtainmore accurate depth estimation in large gradient regions, itis necessary to obtain high-resolution features with spatialand semantic information. Therefore, we present an improvedDepthNet, HR-Depth, with two effective strategies: (1) re-design the skip-connection in DepthNet to get better high-resolution features and (2) propose feature fusion Squeeze-and-Excitation(fSE) module to fuse feature more efficiently.Using Resnet-18 as the encoder, HR-Depth surpasses all pre-vious state-of-the-art(SoTA) methods with the least param-eters at both high and low resolution. Moreover, previousstate-of-the-art methods are based on fairly complex and deepnetworks with a mass of parameters which limits their realapplications. Thus we also construct a lightweight networkwhich uses MobileNetV3 as encoder. Experiments show thatthe lightweight network can perform on par with many largemodels like Monodepth2 at high-resolution with only20%parameters. All codes and models will be available at https://github.com/shawLyu/HR-Depth.
研究动机与目标
- 为解决高分辨率单目深度估计性能不佳的问题,尤其是在物体边界处的表现。
- 减少 U-Net 结构网络中编码器与解码器特征之间的语义-空间差距。
- 在不增加模型复杂度的前提下,提升特征融合的效率与准确性。
- 设计一个轻量化网络,在参数极少的情况下仍保持高性能,适用于实际部署。
- 证明精确的边界预测是提升高分辨率深度估计的关键。
提出的方法
- 重新设计 DepthNet 中的跳跃连接,实现编码器与解码器之间密集的多尺度特征融合,以减少语义差距。
- 提出一种特征融合的挤压-激励(fSE)模块,增强特征整合能力,同时降低参数量。
- 采用 ResNet-18 作为主干编码器,训练 HR-Depth 实现 1024×320 高分辨率推理,显著提升边缘锐度。
- 构建一个轻量化变体,使用 MobileNetV3 作为编码器,仅用 3.1M 参数即实现高性能。
- 使用教师网络(Monodepth2)进行知识蒸馏,指导轻量化模型的训练。
- 采用自监督方式训练网络,利用单目视频序列的几何约束,避免使用真实深度标签。
实验结果
研究问题
- RQ1为何在现有自监督方法中,提升分辨率无法改善深度估计的准确性?
- RQ2如何在高分辨率深度估计网络中更有效地融合语义与空间信息?
- RQ3轻量化网络能否在高分辨率深度估计中达到与大模型相当的性能?
- RQ4哪些架构组件对提升深度图中的边界预测性能影响最大?
- RQ5减少跳跃连接中的语义差距是否能带来更清晰、更准确的深度预测?
主要发现
- HR-Depth 在 KITTI 数据集的高分辨率(1024×320)下实现了最先进性能,绝对相对误差(Abs Rel)为 0.104,优于以往自监督方法。
- 轻量化变体 Lite-HR-Depth 在 1280×384 分辨率下仅使用 3.1M 参数,Abs Rel 达到 0.104,与使用 14.84M 参数的 Monodepth2 性能相当。
- 消融实验表明,结合密集跳跃连接与 fSE 模块相比基线 Monodepth2 可将 Abs Rel 降低 0.006。
- 与标准 SE 模块相比,fSE 模块将密集跳跃连接带来的参数增加减少了 15%,同时提升了性能。
- 特征可视化结果表明,密集跳跃连接显著减少了编码器与解码器特征之间的语义差距,从而生成更丰富、更高分辨率的语义表征。
- 使用教师网络进行知识蒸馏可提升轻量化模型性能,在 1024×320 分辨率下实现 0.105 的 Abs Rel。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。