Skip to main content
QUICK REVIEW

[论文解读] Efficient piecewise training of deep structured models for semantic segmentation

Guosheng Lin, Chunhua Shen|arXiv (Cornell University)|Apr 4, 2015
Advanced Neural Network Applications参考文献 42被引用 83
一句话总结

该论文提出了一种深度结构化模型,将卷积神经网络(CNNs)与条件随机场(CRFs)相结合,通过建模复杂的空间上下文来提升语义分割性能。该方法引入基于CNN的成对势函数以捕捉图像块之间的上下文关系,并采用分段式训练策略,实现高效的端到端学习,在使用多尺度输入和滑动金字塔池化捕捉背景上下文的前提下,在PASCAL VOC 2012数据集上实现了78.0 mIoU的新SOTA结果。

ABSTRACT

Recent advances in semantic image segmentation have mostly been achieved by training deep convolutional neural networks (CNNs). We show how to improve semantic segmentation through the use of contextual information; specifically, we explore `patch-patch' context between image regions, and `patch-background' context. For learning from the patch-patch context, we formulate Conditional Random Fields (CRFs) with CNN-based pairwise potential functions to capture semantic correlations between neighboring patches. Efficient piecewise training of the proposed deep structured model is then applied to avoid repeated expensive CRF inference for back propagation. For capturing the patch-background context, we show that a network design with traditional multi-scale image input and sliding pyramid pooling is effective for improving performance. Our experimental results set new state-of-the-art performance on a number of popular semantic segmentation datasets, including NYUDv2, PASCAL VOC 2012, PASCAL-Context, and SIFT-flow. In particular, we achieve an intersection-over-union score of 78.0 on the challenging PASCAL VOC 2012 dataset.

研究动机与目标

  • 通过显式建模图像区域之间的上下文关系以及与背景的关系,提升语义分割性能。
  • 解决基于CRF模型在深层特征下联合训练计算效率低下的问题。
  • 通过深度神经网络对图像块-块和图像块-背景的结构化建模,提升性能。
  • 在PASCAL VOC 2012、NYUDv2、PASCAL-Context和SIFT-flow等基准数据集上实现SOTA结果。

提出的方法

  • 在CRF中构建基于CNN的成对势函数,以建模相邻图像块之间的语义兼容性。
  • 采用CRF的分段式训练方法,避免反向传播过程中重复进行昂贵的推理,从而实现高效的端到端学习。
  • 使用多尺度图像输入和滑动金字塔池化,以捕获丰富的图像块-背景上下文信息。
  • 在中间特征图上应用优化模块,以提升边界细节和分辨率。
  • 通过边界优化后处理步骤,生成最终的高分辨率预测结果。
  • 将粗粒度的CRF推理预测结果与来自多个网络层的优化特征相结合,以提升精度。

实验结果

研究问题

  • RQ1CRF中的基于CNN的成对势函数是否能有效建模图像块之间的语义兼容性,从而提升分割性能?
  • RQ2CRF的分段式训练是否能实现在无需重复推理的前提下,高效联合学习深层结构化模型?
  • RQ3引入多尺度和金字塔池化特征在语义分割中如何增强背景上下文的建模能力?
  • RQ4所提出方法在PASCAL VOC 2012等挑战性基准数据集上的性能提升程度如何?

主要发现

  • 该方法在PASCAL VOC 2012数据集上实现了78.0 mIoU的新SOTA平均交并比(mIoU)得分。
  • 仅使用VOC 2012训练数据时,模型达到75.3 mIoU,优于所有先前在相同设置下的方法。
  • 在引入额外的COCO数据后,mIoU提升至77.2,证明了大规模预训练的有效性。
  • 在PASCAL-Context数据集(60类)上,mIoU达到43.3,为该数据集报告的最佳结果。
  • 在SIFT-flow数据集(33类)上,mIoU达到44.9,优于所有先前方法。
  • 在仅使用VOC 2012数据训练时,该模型在20个类别中的18个上优于第二好的方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。