[论文解读] Semantically-Guided Representation Learning for Self-Supervised Monocular Depth
本文提出一个语义引导的自监督单目深度框架,通过像素自适应卷积使用固定的预训练语义特征来提升深度表示,并通过两阶段训练来减轻动态对象偏差。
Self-supervised learning is showing great promise for monocular depth estimation, using geometry as the only source of supervision. Depth networks are indeed capable of learning representations that relate visual appearance to 3D properties by implicitly leveraging category-level patterns. In this work we investigate how to leverage more directly this semantic structure to guide geometric representation learning, while remaining in the self-supervised regime. Instead of using semantic labels and proxy losses in a multi-task approach, we propose a new architecture leveraging fixed pretrained semantic segmentation networks to guide self-supervised representation learning via pixel-adaptive convolutions. Furthermore, we propose a two-stage training process to overcome a common semantic bias on dynamic objects via resampling. Our method improves upon the state of the art for self-supervised monocular depth prediction over all pixels, fine-grained details, and per semantic categories.
研究动机与目标
- 利用固定的预训练语义分割来引导自监督单目深度学习。
- 通过像素自适应卷积将语义感知特征引导整合到深度网络中。
- 通过两阶段训练过程解决动态对象上的语义偏差,减少无限深度伪影。
- 在 KITTI 数据集上在像素、类别和动态对象等方面展示相对于最新自监督单目深度方法的改进。
提出的方法
- 使用固定的预训练语义分割网络来引导深度特征。
- 应用像素自适应卷积,其中引导特征通过在语义特征上使用高斯核来调制卷积权重。
- 通过多层级映射处理语义特征,并通过引导方程(Eq. 4 和 5)进行整合。
- 在自监督的SfM设置中训练深度/位姿网络,使用光度一致性和边缘感知深度损失。
- 实现一个两阶段训练流水线,通过基于初始深度模型对训练数据重新采样来对动态对象的无限深度预测进行去偏。
实验结果
研究问题
- RQ1固定语义引导能否在目标数据没有语义监督的情况下改善自监督单目深度表示?
- RQ2带有语义引导的像素自适应卷积是否能在语义类别上得到更准确、边界更清晰的深度图?
- RQ3两阶段训练方案是否能缓解自监督深度估计中动态对象的无限深度偏差?
- RQ4所提出的方法是否与多种深度网络架构和尺度兼容?
- RQ5与基线相比,在语义引导下类别或像素级深度性能有哪些提升?
主要发现
- 在 KITTI 上超越了最先进的自监督单目深度方法,在标准指标上表现优异。
- 语义引导的深度特征使边界更清晰,对远处和细粒结构的判定更准确。
- 两阶段训练减少了动态对象的无限深度伪影,改善了类别平均 Abs-Rel(特别是汽车和摩托车)。
- 该方法在不同编码器骨架(ResNet-18、ResNet-50、PackNet)上持续提升深度表现。
- 消融研究表明语义引导和两阶段训练均对性能提升有贡献。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。