QUICK REVIEW

[论文解读] Rethinking Atrous Convolution for Semantic Image Segmentation

Liang-Chieh Chen, George Papandreou|arXiv (Cornell University)|Jun 17, 2017

Image Retrieval and Classification Techniques参考文献 2被引用 7,431

一句话总结

这篇论文重新审视用于语义分割的空洞卷积（dilated convolution），提出 DeepLabv3，该网络结合了级联的空洞块和增强的 Atrous Spatial Pyramid Pooling (ASPP) 以及图像级特征以捕捉多尺度上下文，在没有 DenseCRF 后处理的情况下，在 PASCAL VOC 2012 上实现了接近最先进的方法的结果。

ABSTRACT

In this work, we revisit atrous convolution, a powerful tool to explicitly adjust filter's field-of-view as well as control the resolution of feature responses computed by Deep Convolutional Neural Networks, in the application of semantic image segmentation. To handle the problem of segmenting objects at multiple scales, we design modules which employ atrous convolution in cascade or in parallel to capture multi-scale context by adopting multiple atrous rates. Furthermore, we propose to augment our previously proposed Atrous Spatial Pyramid Pooling module, which probes convolutional features at multiple scales, with image-level features encoding global context and further boost performance. We also elaborate on implementation details and share our experience on training our system. The proposed `DeepLabv3' system significantly improves over our previous DeepLab versions without DenseCRF post-processing and attains comparable performance with other state-of-art models on the PASCAL VOC 2012 semantic image segmentation benchmark.

研究动机与目标

动机并解决与使用空洞卷积相关的特征分辨率下降和多尺度对象相关的语义分割挑战。
开发通过级联空洞块和并行空洞分支（ASPP）来捕捉多尺度上下文的架构。
用图像级全局上下文特征增强 ASPP，并研究训练细节以提升性能。

提出的方法

应用空洞卷积以提取密集特征，同时控制输出分辨率（output_stride）。
设计级联空洞卷积块，逐步扩大感受野，同时避免过度的空间降采样。
重新审视并增强 Atrous Spatial Pyramid Pooling (ASPP)，采用多种尺度、批归一化以及图像级特征以提供全局上下文。
在级联块中实验多网格率以增强长距离上下文捕获。
采用改进的训练协议，包括训练期间对数值进行上采样、微调批归一化，以及更大的裁剪尺寸。
在不同的 output_stride 设置和推理策略（多尺度、翻转）下进行评估，以最大化准确性。

实验结果

研究问题

RQ1如何重新构造空洞卷积以更好地捕捉语义分割中的多尺度上下文？
RQ2通过用图像级特征增强 ASPP 并仔细进行 BN 训练，是否能提升分割精度，相较于先前的 DeepLab 变体？
RQ3级联与并行多速率空洞模块对分割性能有何影响？
RQ4训练/推理策略（output_stride、裁剪尺寸、自举）如何影响 VOC2012 与 Cityscapes 的性能？
RQ5在提出的 DeepLabv3 架构上，使用 MS-COCO 预训练能够获得哪些增益？

主要发现

DeepLabv3 在 PASCAL VOC 2012 测试集上达到 85.7% mIOU，且无需 DenseCRF 后处理。
在 MS-COCO 上进行预训练后再进行微调，在最佳设置和 JFT-300M 变体下，VOC2012 测试达到 86.9% mIOU。
将 ASPP 与图像级特征结合并调整批归一化可提升 VOC2012 验证集性能；最佳 ASPP 设置通过推理时改进达到 79.77% mIOU。
在 Cityscapes 上，DeepLabv3 仅在 train_fine 上训练时在测试集达到 81.3% mIOU，且根据推理设置变化在 81.3–79.30%；结合多尺度和翻转，验证集（Cityscapes）准确率进一步提高至 79.30%。
推理策略（output_stride=8、多尺度输入，以及左右翻转）在基线 OS=16 上稳定提升性能。
在训练过程中对困难图像（如 bicycle）进行自举有助于提升对稀有/细粒度标注类别的性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。