Skip to main content
QUICK REVIEW

[论文解读] Fully Connected Deep Structured Networks

Alexander G. Schwing, Raquel Urtasun|arXiv (Cornell University)|Mar 9, 2015
Advanced Graph Neural Networks参考文献 27被引用 260
一句话总结

该论文提出了一种全连接深度结构网络的联合训练框架,通过端到端优化卷积神经网络(CNN)特征和条件随机场(CRF)参数,实现语义图像分割。通过将深度特征与全连接CRF结合,并实现对两部分的端到端反向传播,该方法在PASCAL VOC 2012数据集上达到最先进性能,在验证集上取得64.06%的平均交并比(mIoU),优于以往两阶段方法。

ABSTRACT

Convolutional neural networks with many layers have recently been shown to achieve excellent results on many high-level tasks such as image classification, object detection and more recently also semantic segmentation. Particularly for semantic segmentation, a two-stage procedure is often employed. Hereby, convolutional networks are trained to provide good local pixel-wise features for the second step being traditionally a more global graphical model. In this work we unify this two-stage process into a single joint training algorithm. We demonstrate our method on the semantic image segmentation task and show encouraging results on the challenging PASCAL VOC 2012 dataset.

研究动机与目标

  • 将训练CNN以提取局部特征与训练CRF以建模全局上下文的两阶段过程统一为单一联合优化框架。
  • 克服分段训练的局限性,即一元和成对CRF参数分别优化,导致特征与上下文整合不充分。
  • 通过使用变分平均场近似对CRF推理过程进行可微分处理,实现对深度特征与CRF参数的端到端学习。
  • 通过联合优化局部与全局依赖关系,提升在复杂真实世界数据集(如PASCAL VOC 2012)上的语义分割精度。

提出的方法

  • 提出一种联合训练算法,将16层DeepNet(用于一元势能)的参数与全连接CRF(用于成对势能)的兼容性参数和形状参数在单一端到端学习过程中联合优化。
  • 采用变分平均场近似使CRF推理在反向传播过程中可处理,从而实现通过CRF分布的梯度计算。
  • 引入CRF对数归一化常数的可微分近似,使反向传播能够通过通常在全连接CRF中难以处理的归一化项。
  • 通过在所有可能的标签配置上使用软最大归一化来计算概率分布,支持基于梯度的优化。
  • 采用小批量随机梯度下降训练模型,通过CNN和CRF两部分进行反向传播。
  • 采用高斯核参数化CRF成对势能,其形状与兼容性参数与CNN特征联合学习。

实验结果

研究问题

  • RQ1与两阶段训练相比,端到端联合训练深度CNN与全连接CRF是否能提升语义分割性能?
  • RQ2一元CNN特征与成对CRF参数的联合优化如何影响模型保持物体边界和处理类别模糊性能力?
  • RQ3可微分CRF推理对联合训练过程的收敛性与稳定性有何影响?
  • RQ4所提方法在具有噪声或模糊输入的复杂真实世界分割场景中是否具备泛化能力?
  • RQ5与先前使用CNN与CRF分步训练的最先进方法相比,该联合训练框架在定量性能上表现如何?

主要发现

  • 联合训练方法在PASCAL VOC 2012验证集上实现64.06%的平均交并比(mIoU),优于Chen等人[3]报告的63.74%独立训练基线结果。
  • 模型在联合训练阶段约20轮后达到性能峰值,表明在CNN特征微调后收敛迅速。
  • 与基线相比,该方法将一元特征性能提升1.5%,在16层DeepNet微调4000轮后达到61.476%的mIoU。
  • 该方法能有效分割明显可见的物体,但在噪声图像和高变化类(如“bike”和“chair”)上表现较差,验证准确率约为训练准确率的一半。
  • 学习到的CRF参数倾向于过度平滑预测结果,同时在物体边界附近引入噪声,表明平滑性与边界保真度之间存在权衡。
  • 该框架通过变分平均场近似实现可微分CRF推理,使深度网络与全连接CRF的端到端训练成为可能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。