Skip to main content
QUICK REVIEW

[论文解读] Pixel-level Encoding and Depth Layering for Instance-level Semantic Labeling

Jonas Uhrig, Marius Cordts|arXiv (Cornell University)|Apr 18, 2016
Advanced Neural Network Applications参考文献 2被引用 36
一句话总结

本文提出了一种基于全卷积网络(FCN)的方法,用于实例级语义标注,能够从单目图像中联合预测语义标签、深度信息以及像素级到实例中心的方向向量。通过结合这些线索与低层次计算机视觉技术(如模板匹配),该方法在KITTI和Cityscapes数据集上实现了最先进性能,在实例分割方面优于以往方法,同时实现了绝对深度估计和像素级语义理解。

ABSTRACT

Recent approaches for instance-aware semantic labeling have augmented convolutional neural networks (CNNs) with complex multi-task architectures or computationally expensive graphical models. We present a method that leverages a fully convolutional network (FCN) to predict semantic labels, depth and an instance-based encoding using each pixel's direction towards its corresponding instance center. Subsequently, we apply low-level computer vision techniques to generate state-of-the-art instance segmentation on the street scene datasets KITTI and Cityscapes. Our approach outperforms existing works by a large margin and can additionally predict absolute distances of individual instances from a monocular image as well as a pixel-level semantic labeling.

研究动机与目标

  • 解决现有实例感知语义标注方法依赖复杂多任务网络或计算成本高昂后处理的局限性。
  • 实现在单目图像上实现高精度、实时的实例分割,同时进行深度估计与像素级语义标注。
  • 通过结合FCN预测结果与高效的模板匹配及深度分层策略,提升在拥挤、遮挡城市场景下的性能。
  • 提出一种无需提议框的方法,避免对物体提议质量的依赖,从而减少误差传播。

提出的方法

  • 全卷积网络(FCN)为每个像素预测三个输出:语义类别、指向实例中心的方向向量,以及离散的深度层级。
  • 利用方向向量在类别特定得分图上通过模板匹配生成实例提议。
  • 将深度预测离散化为19个类别,采用非均匀范围以平衡各深度层级的物体尺寸分布。
  • 通过基于深度分层的策略对实例提议进行优化与融合,以强制执行深度排序与遮挡推理。
  • 该方法将FCN输出与标准计算机视觉技术(如模板匹配)结合,而非采用端到端学习进行实例分割。
  • 后处理利用预测的深度与方向线索解决遮挡问题,提升分割精度。

实验结果

研究问题

  • RQ1单个FCN能否预测足够的线索(语义标签、深度与到实例中心的方向)以实现无需物体提议框的高质量实例分割?
  • RQ2在复杂城市场景中,联合预测深度与方向如何提升实例级语义标注性能?
  • RQ3低层次计算机视觉技术(如模板匹配)能否有效利用FCN输出生成精确的实例掩码?
  • RQ4基于离散深度类别的分层策略是否能提升遮挡推理能力与分割精度?

主要发现

  • 该方法在KITTI与Cityscapes数据集上的实例分割性能达到最先进水平,优于现有基于提议框与多任务方法。
  • 在实例级评估中,该方法在所有类别上显著超越MCG+R-CNN基线,尤其在汽车与行人类别上提升明显。
  • 该方法在像素级语义分割方面表现具有竞争力,使用iIoU指标时在关键类别(如行人、汽车、自行车)上优于大多数基线方法。
  • 在公交车、卡车与火车等类别上性能下降,原因在于FCN中语义分类准确率较低,该误差传播至模板匹配与实例生成阶段。
  • 基于物体尺寸分布将深度划分为19个非均匀类别的离散化策略,提升了模板匹配的可靠性与整体性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。