Skip to main content
QUICK REVIEW

[论文解读] Monocular Object Instance Segmentation and Depth Ordering with CNNs

Ziyu Zhang, Alexander G. Schwing|arXiv (Cornell University)|May 12, 2015
Advanced Vision and Imaging参考文献 38被引用 34
一句话总结

该论文提出了一种CNN-MRF框架,用于从单张RGB图像中进行单目实例级分割与深度排序,通过多尺度图像块预测和马尔可夫随机场(MRF)联合优化分割与深度排序。该方法在KITTI基准测试中达到最先进性能,优于基线方法,在实例级指标和深度排序准确性方面表现优异,尤其在经过后处理后性能提升2%。

ABSTRACT

In this paper we tackle the problem of instance-level segmentation and depth ordering from a single monocular image. Towards this goal, we take advantage of convolutional neural nets and train them to directly predict instance-level segmentations where the instance ID encodes the depth ordering within image patches. To provide a coherent single explanation of an image we develop a Markov random field which takes as input the predictions of convolutional neural nets applied at overlapping patches of different resolutions, as well as the output of a connected component algorithm. It aims to predict accurate instance-level segmentation and depth ordering. We demonstrate the effectiveness of our approach on the challenging KITTI benchmark and show good performance on both tasks.

研究动机与目标

  • 解决从单张单目图像中联合预测实例级分割与深度排序的挑战。
  • 通过联合推理检测、分割与深度排序,消除对目标检测作为输入的依赖。
  • 在训练过程中利用3D边界框和立体数据的弱监督信号,同时在测试时仅需单张RGB图像。
  • 通过结合多尺度CNN预测的结构化MRF,提升实例分割与深度排序的准确性和一致性。
  • 在自动驾驶场景复杂的KITTI基准测试中验证方法的有效性。

提出的方法

  • 该方法使用CNN在多个分辨率下对密集采样的图像块进行深度排序的实例分割预测。
  • MRF中的单变量势能由重叠图像块上的CNN输出导出,其中实例ID编码了深度顺序。
  • MRF中的成对势能通过基于CNN的亲和度度量,强制相邻像素与连通组件之间的一致性。
  • 通过连通组件算法对每个图像块的CNN输出进行处理,生成初始实例提议。
  • 通过求解结合单变量与成对项的MRF能量最小化问题,获得最终的分割与深度排序结果。
  • 通过MRF推理进行后处理可显著提升性能,尤其在召回率与深度排序指标方面。

实验结果

研究问题

  • RQ1CNN-MRF框架能否在不依赖目标检测输入的前提下,从单张单目图像中联合预测准确的实例级分割与深度排序?
  • RQ2基于多尺度图像块的CNN预测与MRF推理相结合,在提升实例分割与深度排序准确性方面效果如何?
  • RQ3与原始CNN预测或仅单变量推理相比,基于MRF的后处理在多大程度上提升了性能?
  • RQ4该方法在KITTI基准测试中复杂遮挡、阴影与小物体并存的场景下,泛化能力如何?
  • RQ5能否有效利用来自3D边界框与立体数据的弱监督信号,训练单张图像的实例分割与深度排序模型?

主要发现

  • 完整MRF方法在随机采样的前景像素对中达到83.1%的正确排序准确率,显著优于基线方法。
  • 经过后处理后,实例级指标提升约2%,其中召回率与MUCov/MWCov指标提升最为显著。
  • 成对MRF公式在后处理后优于仅单变量推理,表明结构化推理对性能至关重要。
  • 该方法在KITTI基准测试中表现优异,具有较高的目标精确率,并且召回率相比基线有所提升。
  • 该方法可成功分割并排序单个图像块中的多达五个汽车实例,即使在复杂的遮挡模式下亦能保持良好性能。
  • 失败案例主要源于CNN漏检的小型车辆以及连通组件算法导致的实例合并。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。