[论文解读] Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation
本文通过增加一个轻量级解码器并使用空洞分离卷积,将 DeepLabv3 扩展为一个编码器-解码器架构(DeepLabv3+),在 PASCAL VOC 2012 和 Cityscapes 上实现了无后处理的最新语义分割性能。
Spatial pyramid pooling module or encode-decoder structure are used in deep neural networks for semantic segmentation task. The former networks are able to encode multi-scale contextual information by probing the incoming features with filters or pooling operations at multiple rates and multiple effective fields-of-view, while the latter networks can capture sharper object boundaries by gradually recovering the spatial information. In this work, we propose to combine the advantages from both methods. Specifically, our proposed model, DeepLabv3+, extends DeepLabv3 by adding a simple yet effective decoder module to refine the segmentation results especially along object boundaries. We further explore the Xception model and apply the depthwise separable convolution to both Atrous Spatial Pyramid Pooling and decoder modules, resulting in a faster and stronger encoder-decoder network. We demonstrate the effectiveness of the proposed model on PASCAL VOC 2012 and Cityscapes datasets, achieving the test set performance of 89.0\% and 82.1\% without any post-processing. Our paper is accompanied with a publicly available reference implementation of the proposed models in Tensorflow at \url{https://github.com/tensorflow/models/tree/master/research/deeplab}.
研究动机与目标
- 结合空间金字塔池化(spatial pyramid pooling)的优势与编码器-解码器结构,用于语义分割。
- 通过空洞卷积实现对编码器特征分辨率的可控,以权衡精度和速度。
- 引入一个解码器,在重用编码器特征的同时细化边界。
- 采用深度可分离卷积(Xception-based)以提升速度和精度。
提出的方法
- 通过追加一个简单而有效的解码器来扩展 DeepLabv3,以细化边界。
- 在编码器中应用空洞(扩张)卷积,以控制特征密度和感受野。
- 在 ASPP 和解码器模块中纳入深度可分离卷积(空洞分离卷积)。
- 采用对齐的 Xception 主干网络,使用深度可分离卷积以降低计算量。
- 在 VOC 2012 上进行端到端训练,输出步幅为 16x/8x,以在精度与速度之间取得平衡。
- 在 DeepLab 仓库中提供公开的 TensorFlow 实现。
实验结果
研究问题
- RQ1利用 ASPP 和简单解码器的编码器-解码器结构是否能够在无后处理的情况下改善边界锐度?
- RQ2在语义分割中的准确性和速度方面,使用空洞分离卷积和基于 Xception 的骨干网络会带来怎样的影响?
- RQ3所提出的解码器设计如何影响边界精度和在标准基准上的整体 mIoU?
主要发现
- 采用所提解码器的 DeepLabv3+ 在 PASCAL VOC 2012 测试集上达到 89.0% mIoU(VOC 2012 测试结果,含 JFT 预训练)。
- 在 Cityscapes,DeepLabv3+ 在测试集上不经过后处理达到 82.1% mIoU,验证集根据骨干网和设置在 79.55–82.1% 区间。
- 以 Xception 作为骨干 plus 空洞分离卷积在保持相近 mIoU 的同时将乘加运算减少 33–41%。
- 解码器设计选择相较于朴素双线性上采样在对象边界附近带来改进(在 trimap 分析中获得显著增益)。
- 在 COCO/JFT 预训练下,微调后模型在 VOC 2012 测试上达到 89.0%,在 Cityscapes 达到 82.1%。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。