Skip to main content
QUICK REVIEW

[论文解读] Self-Supervised Monocular Depth Estimation with Internal Feature Fusion

Hang Zhou, David Greenwood|arXiv (Cornell University)|Oct 18, 2021
Advanced Vision and Imaging参考文献 40被引用 58
一句话总结

DIFFNet 使用高分辨率 HRNet 编码器,内部多阶段特征融合与基于注意力的解码器以提升自监督单目深度估计,在 KITTI 高分辨率结果上达到领先水平,尤其在较高分辨率时。

ABSTRACT

Self-supervised learning for depth estimation uses geometry in image sequences for supervision and shows promising results. Like many computer vision tasks, depth network performance is determined by the capability to learn accurate spatial and semantic representations from images. Therefore, it is natural to exploit semantic segmentation networks for depth estimation. In this work, based on a well-developed semantic segmentation network HRNet, we propose a novel depth estimation network DIFFNet, which can make use of semantic information in down and upsampling procedures. By applying feature fusion and an attention mechanism, our proposed method outperforms the state-of-the-art monocular depth estimation methods on the KITTI benchmark. Our method also demonstrates greater potential on higher resolution training data. We propose an additional extended evaluation strategy by establishing a test set of challenging cases, empirically derived from the standard benchmark.

研究动机与目标

  • 在 SfM 监督下,将自监督学习框架下的单图深度估计作为研究动机。
  • 探索语义丰富、分辨率高的特征如何在编码器内融合,以弥合语义与空间差距。
  • 提出 DIFFNet,具有内部多阶段特征融合和基于注意力的解码器以提升深度精度。
  • 展示 KITTI 的 state-of-the-art 结果并在具有挑战性的场景上进行扩展评估。

提出的方法

  • 将 HRNet 作为深度编码器,以保持高分辨率且具有语义丰富的特征。
  • 通过在 HRNet 流之间串联多阶段特征来实现内部特征融合,创建语义多样化且分辨率高的表示。
  • 实现带注意力模块的解码器,在 U-Net 风格结构中对跳跃连接进行处理。
  • 评估三种注意力策略(通道式、空间式、通道-空间)并选择通道式注意力作为最佳方案。
  • 在自监督框架中使用基于光度和 SSIM 的损失以及标准的深度平滑正则化进行训练。
  • 进行消融实验以分离预训练、多阶段融合和注意力对深度精度的影响。

实验结果

研究问题

  • RQ1在语义骨干中多阶段高分辨率特征的内部融合如何在自监督条件下改进单目深度估计?
  • RQ2不同注意力机制在解码跳跃连接用于深度图时有什么影响?
  • RQ3DIFFNet 是否在 KITTI 上超过现有自监督方法,尤其在更高输入分辨率下?
  • RQ4在具有挑战性的 KITTI 案例上进行扩展评估是否能揭示语义信息对深度估计的鲁棒性优势?

主要发现

方法训练宽×高绝对相对误差平方相对误差均方根误差RMSE 对数delta1delta2delta3
SfMlearnerM640x1920.1831.5956.7090.2700.7340.9020.959
LiM416x1280.1300.9505.1380.2090.8430.9480.978
ChenM+Se512x2560.1180.9055.0960.2110.8390.9450.977
Monodepth2M640x1920.1150.9034.8630.1930.8770.9590.981
SGDepthM+Se640x1920.1130.8354.6930.1910.8790.9610.981
SAFENetM+Se640x1920.1120.7884.5820.1870.8780.9630.983
VC-DepthM640x1920.1120.8164.7150.1900.8800.9600.982
PackNetM640x1920.1110.7854.6010.1890.8780.9600.982
Mono-UncertaintyM640x1920.1110.8634.7560.1880.8810.9610.982
FangM640x1920.111-4.6600.1860.8840.9620.982
HR-depthM640x1920.1090.7924.6320.1850.8870.9620.983
DIFFNetM640x1920.1020.7644.4830.1800.8960.9650.983
Monodepth2MS640x1920.1060.8184.7500.1960.8740.9570.979
HR-depthMS640x1920.1070.7854.6120.1850.8870.9620.982
FangMS640x1920.101-4.5120.1880.8810.9610.981
DIFFNetMS640x1920.1010.7494.4450.1790.8980.9650.983
Monodepth2MS1024x3200.1150.8824.7010.1900.8790.9610.982
FangMS1024x3200.109-4.5810.1850.8900.9640.983
PackNetMS1280x3840.1070.8024.5380.1860.8890.9620.981
SGDepthMS1280x3840.1070.7684.4680.1860.8910.9630.982
SAFENetMS1024x3200.1060.7434.4890.1810.8840.9650.984
HR-depthMS1024x3200.1060.7554.4720.1810.8920.9660.984
Feat-DepthMS1024x3200.1040.7294.4810.1790.8930.9650.984
GuiziliniMS1280x3840.1000.7614.2700.1750.9020.9650.982
DIFFNetMS1024x3200.0970.7224.3450.1740.9070.9670.984
  • DIFFNet 在 KITTI 上达到_STATE-OF-THE-ART_ 或具有竞争力的结果,优于自监督方法在标准指标上的表现。
  • 对编码器进行 ImageNet 预训练在消融组件中带来最大的性能提升。
  • 通道式注意力在解码器中的精度优于空间式或通道-空间注意力。
  • 多阶段特征融合在不同注意力配置下对深度预测具有一致的提升作用。
  • 在较高分辨率(1024x320)下,DIFFNet 进一步提高准确性并保持对比方法的优势。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。