[论文解读] Semantic Image Segmentation with Task-Specific Edge Detection Using CNNs and a Discriminatively Trained Domain Transform
本文提出一种基于领域变换(DT)滤波器的特定任务边缘检测方法,通过端到端训练以提升语义图像分割性能。通过从中间卷积神经网络(CNN)特征中学习边缘图,而非依赖图像梯度,该方法在实现与全连接CRF相当的分割精度的同时,显著提升了推理速度——最高达10倍加速,且在BSDS500数据集上也取得了具有竞争力的边缘检测结果。
Deep convolutional neural networks (CNNs) are the backbone of state-of-art semantic image segmentation systems. Recent work has shown that complementing CNNs with fully-connected conditional random fields (CRFs) can significantly enhance their object localization accuracy, yet dense CRF inference is computationally expensive. We propose replacing the fully-connected CRF with domain transform (DT), a modern edge-preserving filtering method in which the amount of smoothing is controlled by a reference edge map. Domain transform filtering is several times faster than dense CRF inference and we show that it yields comparable semantic segmentation results, accurately capturing object boundaries. Importantly, our formulation allows learning the reference edge map from intermediate CNN features instead of using the image gradient magnitude as in standard DT filtering. This produces task-specific edges in an end-to-end trainable system optimizing the target semantic segmentation quality.
研究动机与目标
- 在不增加全连接CRF推理计算成本的前提下,提升语义图像分割在物体边界附近的精度。
- 解决基于CNN的分割模型中全连接CRF后处理带来的高计算开销问题。
- 从中间CNN特征中学习特定任务的边缘,以在端到端可训练框架中提升分割质量。
- 用更高效的领域变换替代CRF中的昂贵双边滤波,同时保持分割性能。
- 证明联合训练的边缘检测可同时提升基准数据集上的分割与边缘检测性能。
提出的方法
- 用领域变换(DT)滤波器替代基于CNN的分割模型中全连接CRF的后处理步骤,实现边缘感知平滑。
- 使用中间CNN特征作为DT的有学习参考边缘图,而非依赖图像梯度幅值。
- 通过反向传播端到端训练整个系统,以优化分割质量,使边缘检测器具备任务特定性。
- 将领域变换建模为门控循环神经网络(GRNN),从而与RNN共享洞察并实现高效实现。
- 利用学习到的边缘图对粗粒度语义分割得分应用DT滤波器,生成边界感知更优的预测结果。
- 将DT模块整合进统一的CNN架构中,联合生成分割得分与边缘图。
实验结果
研究问题
- RQ1领域变换滤波器是否能在显著降低推理时间的同时,替代全连接CRF后处理并保持分割精度?
- RQ2从中间CNN特征中学习特定任务边缘图,相比使用图像梯度,是否能提升分割性能?
- RQ3领域变换是否可作为分割网络的一部分实现端到端训练,从而联合优化边缘检测与分割?
- RQ4所提方法是否在语义分割与边缘检测基准测试中均达到具有竞争力的性能?
- RQ5与传统双边滤波或全连接CRF推理相比,使用领域变换的计算效率提升如何?
主要发现
- 所提出的DT-EdgeNet方法在ImageNet和MS-COCO上预训练后,在PASCAL VOC 2012测试集上达到71.7的mIOU,优于DeepLab-CRF-LargeFOV(70.3 mIOU),并接近更昂贵的CRF方法的性能。
- 在额外使用MS-COCO进行预训练后,DT-EdgeNet + DenseCRF达到73.6 mIOU,接近当前最先进方法DeepLab-CRF-Attention-DT(76.3 mIOU),同时显著快于基于CRF的推理。
- 领域变换的推理速度最高可达全连接CRF的10倍,使低延迟的实时或近实时分割成为可能。
- 所学习的边缘检测器(EdgeNet)在BSDS500边缘检测基准上表现具有竞争力,证明特定任务边缘学习可同时提升分割与边缘检测性能。
- 该方法保持了高边界精度,DT-EdgeNet生成的分割结果与物体轮廓高度对齐,如定性对比所示。
- 领域变换在数学上等价于门控循环网络,为其实现效率与行为提供了理论与实践上的深入见解。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。