QUICK REVIEW

[论文解读] Convolutional CRFs for Semantic Segmentation

Marvin Teichmann, Roberto Cipolla|arXiv (Cornell University)|May 12, 2018

Generative Adversarial Networks and Image Synthesis被引用 51

一句话总结

本文提出卷积条件随机场（ConvCRFs），一种快速且可微分的结构化预测框架，通过在条件独立性假设下使用卷积重新表述全连接CRF。通过用可微分卷积替换缓慢的排列立体晶格近似，该方法将推理和训练速度提升两个数量级，同时支持所有参数（包括高斯特征）的端到端反向传播，实现在Pascal VOC上的最先进性能，mIoU达到72.18%。

ABSTRACT

For the challenging semantic image segmentation task the best performing models have traditionally combined the structured modelling capabilities of Conditional Random Fields (CRFs) with the feature extraction power of CNNs. In more recent works however, CRF post-processing has fallen out of favour. We argue that this is mainly due to the slow training and inference speeds of CRFs, as well as the difficulty of learning the internal CRF parameters. To overcome both issues we propose to add the assumption of conditional independence to the framework of fully-connected CRFs. This allows us to reformulate the inference in terms of convolutions, which can be implemented highly efficiently on GPUs. Doing so speeds up inference and training by two orders of magnitude. All parameters of the convolutional CRFs can easily be optimized using backpropagation. Towards the goal of facilitating further CRF research we have made our implementations publicly available.

研究动机与目标

解决传统全连接CRF在语义分割中训练和推理速度缓慢的问题。
克服在端到端深度学习流水线中学习CRF参数（尤其是成对特征）的困难。
通过使其高效且可通过反向传播训练，使结构化CRF模型在现代深度学习中重新焕发活力。
利用基于梯度的优化方法，实现CRF中高斯成对特征的端到端学习。
提供一种实用的、高速的CRF后处理替代方案，支持全分辨率预测。

提出的方法

在全连接CRF中引入条件独立性假设，以简化消息传递并支持卷积实现。
将CRF消息传递重新表述为共享空间的卷积，实现高效的GPU加速。
使用可微分卷积替代排列立体晶格近似，显著降低推理和训练时间。
使用反向传播对所有CRF参数（包括高斯核特征）进行端到端训练。
实现两种训练策略：解耦训练（在保留数据上训练CRF参数）和端到端训练（与单通道网络联合训练）。
通过将单通道CNN输出与ConvCRF结合，应用于语义分割以实现结构化优化。

实验结果

研究问题

RQ1是否能在保留全连接CRF建模能力的同时，克服其计算瓶颈？
RQ2是否能通过反向传播有效实现CRF中高斯成对特征的端到端学习？
RQ3用卷积替代排列立体晶格是否能显著提升训练和推理速度，同时不损失准确性？
RQ4ConvCRFs是否能在Pascal VOC等标准基准上实现最先进性能？
RQ5当与深度CNN结合时，CRF参数的端到端训练是否可行且有益？

主要发现

ConvCRFs的推理和训练速度比传统全连接CRF快两个数量级，推理时间低于10ms。
该方法支持所有CRF参数（包括高斯成对特征）的端到端反向传播，而这些参数此前难以优化。
在Pascal VOC 2012验证集上，ConvCRF实现了72.18%的平均交并比（mIoU），优于CRFasRNN（69.6%）和DeepLab-CRF。
解耦训练策略（使用保留的训练数据子集校准CRF参数）表现最佳，尤其得益于单通道置信度估计的更好对齐。
从第100个epoch开始的端到端训练可防止基线模型中出现的性能崩溃，并带来更高的验证mIoU，表明早期联合优化的重要性。
ConvCRFs中精确的消息传递相比近似方法带来适度的精度提升，验证了精确计算的优势。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。