[论文解读] Semantically-Guided Representation Learning for Self-Supervised Monocular Depth
引入一种语义引导的、自监督的单目深度估计方法,使用固定的预训练语义特征来引导深度网络中的像素自适应卷积,以及一个两阶段训练方案以减轻动态图像上的无限深度偏差,在KITTI数据集上达到最先进性能。
Self-supervised learning is showing great promise for monocular depth estimation, using geometry as the only source of supervision. Depth networks are indeed capable of learning representations that relate visual appearance to 3D properties by implicitly leveraging category-level patterns. In this work we investigate how to leverage more directly this semantic structure to guide geometric representation learning, while remaining in the self-supervised regime. Instead of using semantic labels and proxy losses in a multi-task approach, we propose a new architecture leveraging fixed pretrained semantic segmentation networks to guide self-supervised representation learning via pixel-adaptive convolutions. Furthermore, we propose a two-stage training process to overcome a common semantic bias on dynamic objects via resampling. Our method improves upon the state of the art for self-supervised monocular depth prediction over all pixels, fine-grained details, and per semantic categories.
研究动机与目标
- 激励利用语义结构来改进自监督单目深度学习。
- 开发一个架构,使用固定的预训练语义分割特征通过像素自适应卷积引导深度特征。
- 用两阶段重新采样训练过程解决动态对象上的语义偏差。
- 在KITTI上展示对像素、语义类别和动态类别的深度估计精度的提升。
提出的方法
- 使用固定的预训练语义分割网络通过像素自适应卷积引导深度特征学习。
- 用来自多个语义特征图的语义感知引导来表示深度特征,经过3x3和1x1卷积、GroupNorm和ELU处理。
- 使用像素自适应卷积计算深度特征,其中语义相似性通过对语义特征的高斯核调节空间卷积权重来实现。
- 在自监督SfM设置中训练深度/姿态网络,使用光度和边缘感知深度损失、自动遮罩和反向深度上采样。
- 实现两阶段训练方案:(1) 在所有数据上训练以识别无限深度偏差;(2) 重新采样以移除偏置序列并从头开始重新训练。
实验结果
研究问题
- RQ1固定的、预训练的语义引导是否能在目标数据上没有语义监督的情况下改善自监督单目深度表示?
- RQ2由语义特征引导的像素自适应卷积是否提升对细粒结构和远距离对象的深度估计?
- RQ3两阶段数据重新采样策略是否能有效减轻动态图对象上的无限深度偏差?
- RQ4语义引导方法在不同的深度网络骨干上表现如何?
主要发现
| 方法 | Abs Rel | Sq Rel | RMSE | RMSE log | delta<1.25 | delta<1.25^2 | delta<1.25^3 |
|---|---|---|---|---|---|---|---|
| Garg et al. (2016) | 0.152 | 1.226 | 5.849 | 0.246 | 0.784 | 0.921 | 0.967 |
| Zou et al. (2018) | 0.150 | 1.124 | 5.507 | 0.223 | 0.806 | 0.933 | 0.973 |
| Godard et al. (2017) | 0.141 | 1.186 | 5.677 | 0.238 | 0.809 | 0.928 | 0.969 |
| Zhan et al. (2018) | 0.135 | 1.132 | 5.585 | 0.229 | 0.820 | 0.933 | 0.971 |
| Godard et al. (2018) R18 (M) | 0.115 | 0.903 | 4.863 | 0.193 | 0.877 | 0.959 | 0.981 |
| Godard et al. (2018) R50 (M) | 0.112 | 0.851 | 4.754 | 0.190 | 0.881 | 0.960 | 0.981 |
| Guizilini et al. (2019) MR (M) | 0.108 | 0.727 | 4.426 | 0.184 | 0.885 | 0.963 | 0.983 |
| Guizilini et al. (2019) HR (M) | 0.104 | 0.758 | 4.386 | 0.182 | 0.895 | 0.964 | 0.982 |
| Casser et al. (2019) S+Inst (M) | 0.141 | 1.025 | 5.290 | 0.215 | 0.816 | 0.945 | 0.979 |
| Chen et al. (2019) S+Sem (M) | 0.118 | 0.905 | 5.096 | 0.211 | 0.839 | 0.945 | 0.977 |
| Ochs et al. (2019) D+Sem (M) | 0.116 | 0.945 | 4.916 | 0.208 | 0.861 | 0.952 | 0.968 |
| Ours (MR) (M+Sem) | 0.102 | 0.698 | 4.381 | 0.178 | 0.896 | 0.964 | 0.984 |
| Ours (HR) (M+Sem) | 0.100 | 0.761 | 4.270 | 0.175 | 0.902 | 0.965 | 0.982 |
- 语义引导架构在KITTI上对现有自监督单目深度方法的多项指标均有显著超越。
- 它在边界、远距离或细粒结构(如杆、交通标志)处的深度感知尤为提升。
- 两阶段训练有效降低动态图对象上的无限深度偏差,改善类别平均Abs-Rel(如汽车、摩托车)。
- 该方法在多种深度网络骨干(ResNet-18、ResNet-50、PackNet)及有无语义引导情况下均有收益。
- 与使用语义或实例信息的方法相比,提出的固定语义引导方法达到具有竞争力或更好的结果。
- 定性地,深度图具有更清晰的边界,对动态图和远距元素的轮廓分辨更好。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。