[论文解读] DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs
介绍 DeepLab,一种使用空洞卷积获得密集特征、ASPP实现多尺度上下文、以及在边界上进行细化的全连接条件随机场的语义分割系统,在 PASCAL VOC 2012 和其他数据集上达到最先进的结果。
In this work we address the task of semantic image segmentation with Deep Learning and make three main contributions that are experimentally shown to have substantial practical merit. First, we highlight convolution with upsampled filters, or 'atrous convolution', as a powerful tool in dense prediction tasks. Atrous convolution allows us to explicitly control the resolution at which feature responses are computed within Deep Convolutional Neural Networks. It also allows us to effectively enlarge the field of view of filters to incorporate larger context without increasing the number of parameters or the amount of computation. Second, we propose atrous spatial pyramid pooling (ASPP) to robustly segment objects at multiple scales. ASPP probes an incoming convolutional feature layer with filters at multiple sampling rates and effective fields-of-views, thus capturing objects as well as image context at multiple scales. Third, we improve the localization of object boundaries by combining methods from DCNNs and probabilistic graphical models. The commonly deployed combination of max-pooling and downsampling in DCNNs achieves invariance but has a toll on localization accuracy. We overcome this by combining the responses at the final DCNN layer with a fully connected Conditional Random Field (CRF), which is shown both qualitatively and quantitatively to improve localization performance. Our proposed "DeepLab" system sets the new state-of-art at the PASCAL VOC-2012 semantic image segmentation task, reaching 79.7% mIOU in the test set, and advances the results on three other datasets: PASCAL-Context, PASCAL-Person-Part, and Cityscapes. All of our code is made publicly available online.
研究动机与目标
- 动机并解决将 DCNN 应用到语义分割中的三个挑战:(i) 特征分辨率降低,(ii) 物体尺度多样性,(iii) 定位精度。
- 提出空洞卷积以控制特征分辨率并在不增加额外参数的情况下增大感受野。
- 引入 atrous 空间金字塔池化(ASPP)以高效捕捉多尺度上下文。
- 通过在 DCNN 输出之上整合全连接 CRF 来改善边界定位。
提出的方法
- 使用带有空洞卷积的全卷积网络以在比标准 DCNN 更高的分辨率下计算密集特征图。
- 用空洞卷积替代标准的多层下采样,以在不增加参数的情况下增大视野。
- 实现 ASPP,将不同采样率的并行空洞卷积用于捕捉多尺度上下文。
- 将最终 DCNN 得分图通过双线性插值上采样到原始图像大小,然后用全连接 CRF 细化以获得清晰边界。
- 对 ImageNet 预训练网络(VGG-16 或 ResNet-101)进行语义分割微调,并在验证集上单独训练 CRF 参数。
- 提供扩展 Caffe 框架的公开代码和模型。
实验结果
研究问题
- RQ1空洞卷积是否能够在不增加额外参数或计算量的情况下实现高分辨率的密集预测?
- RQ2空洞空间金字塔池化是否比多尺度图像处理更高效地提升跨对象尺度的分割?
- RQ3将 DCNN 输出与全连接 CRF 结合是否能改进边界定位和整体分割精度?
- RQ4在使用空洞卷积和 ASPP 时,较深的网络(VGG-16 与 ResNet-101)对语义分割性能有何影响?
主要发现
| 卷积核 | 采样率 | 视野 | 参数量 | 速度(图像/秒) | CRF 前/后 |
|---|---|---|---|---|---|
| 7x7 | 4 | 224 | 134.3M | 1.44 | 64.38 / 67.64 |
| 4x4 | 4 | 128 | 65.1M | 2.90 | 59.80 / 63.74 |
| 4x4 | 8 | 224 | 65.1M | 2.90 | 63.41 / 67.14 |
| 3x3 | 12 | 224 | 20.5M | 4.84 | 62.25 / 67.64 |
- 采用空洞卷积的 DeepLab 能实现高分辨率特征图(8x 采样)并通过双线性上采样还原到原始图像尺寸。
- ASPP 通过在多个采样率下探测特征来提升多尺度对象分割。
- 全连接 CRF 细化边界并改善定位,在各变体的均值 IOU 上实现约 3–5% 的绝对增益。
- 在 PASCAL VOC 2012 上,DeepLab-CRF-LargeFOV 在官方测试集达到 70.3% 的均值 IOU,并在 VOC 2012、PASCAL-Context、PASCAL-Person-Part 和 Cityscapes 上报告了最先进的结果。
- 使用更大的视野(小卷积核但更高的采样率)加 CRF 提供最佳的准确性与速度折衷(例如 DeepLab-LargeFOV)。
- 带有 ASPP 和 CRF 的 DeepLab 变体超越会议版本结果,并在更深的网络和多尺度处理方面显示出增益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。