[论文解读] Understanding Convolution for Semantic Segmentation
该论文提出了两种新型卷积操作——密集上采样卷积(Dense Upsampling Convolution, DUC)和混合空洞卷积(Hybrid Dilated Convolution, HDC),以提升像素级语义分割性能。DUC 实现了可学习的高分辨率特征上采样,而 HDC 通过使用多种空洞率,缓解了空洞卷积中的‘棋盘效应’。该方法在 Cityscapes 上实现了 80.1% 的 SOTA mIoU,在 PASCAL VOC2012 上达到 83.1%,并在 KITTI 路面分割任务中取得最佳性能,且无需使用 CRF 后处理。
Recent advances in deep learning, especially deep convolutional neural networks (CNNs), have led to significant improvement over previous semantic segmentation systems. Here we show how to improve pixel-wise semantic segmentation by manipulating convolution-related operations that are of both theoretical and practical value. First, we design dense upsampling convolution (DUC) to generate pixel-level prediction, which is able to capture and decode more detailed information that is generally missing in bilinear upsampling. Second, we propose a hybrid dilated convolution (HDC) framework in the encoding phase. This framework 1) effectively enlarges the receptive fields (RF) of the network to aggregate global information; 2) alleviates what we call the "gridding issue" caused by the standard dilated convolution operation. We evaluate our approaches thoroughly on the Cityscapes dataset, and achieve a state-of-art result of 80.1% mIOU in the test set at the time of submission. We also have achieved state-of-the-art overall on the KITTI road estimation benchmark and the PASCAL VOC2012 segmentation task. Our source code can be found at https://github.com/TuSimple/TuSimple-DUC .
研究动机与目标
- 通过在编码和解码阶段重新思考卷积操作,提升像素级语义分割性能。
- 通过引入可学习的密集上采样机制,解决双线性上采样导致的细节丢失问题。
- 解决标准空洞卷积中因稀疏核采样而遗漏局部空间信息的‘棋盘效应’。
- 在不进行下采样的前提下有效扩大感受野,提升全局上下文聚合能力。
- 在 Cityscapes、KITTI 和 PASCAL VOC2012 等主要基准数据集上实现 SOTA 性能。
提出的方法
- 提出密集上采样卷积(DUC),通过学习一组滤波器将特征图上采样至全分辨率,支持端到端训练并保留精细细节。
- 引入混合空洞卷积(HDC),在相同空间层并行应用多种空洞率,并将输出结果拼接,以提升感受野覆盖范围。
- 在 HDC 中采用多速率空洞策略,即在同一层应用不同空洞率,减少标准空洞卷积中出现的棋盘式采样模式。
- 使用改进的 ResNet-101 主干网络,其中 DUC 取代双线性上采样,HDC 取代编码器中的标准空洞卷积。
- 采用标准优化方法进行端到端训练,结合数据增强与有限数据集(如 KITTI)上的裁剪训练策略。
- 仅在消融实验中使用 CRF 后处理;最佳结果在无 CRF 的情况下取得,证明了所提模块的优越性。
实验结果
研究问题
- RQ1可学习的上采样操作(如 DUC)是否能在保留细粒度分割细节方面超越标准的双线性上采样?
- RQ2在单一层中使用多种空洞率(HDC)是否能减少标准空洞卷积中出现的棋盘效应?
- RQ3HDC 是否能有效扩大感受野,同时保持密集的空间覆盖,以实现更优的上下文建模?
- RQ4DUC 与 HDC 在 Cityscapes、KITTI 和 PASCAL VOC2012 等基准数据集上的性能提升程度如何?
- RQ5所提模块是否能在不依赖 CRF 后处理的情况下实现 SOTA 结果?
主要发现
- 所提出的 ResNet-DUC-HDC 模型在不使用 CRF 后处理的情况下,单模型在 Cityscapes 测试集上实现了 80.1% 的 SOTA mIoU。
- 在 KITTI 路面分割基准上,该模型在所有子类别中均取得了最高的 F1 值(96.41%)与平均精度(93.88%)。
- 在 PASCAL VOC2012 上,该模型在单模型设置下实现了 83.1% 的 mIoU,显著优于先前方法。
- DUC 模块在小物体上的 mIoU 显著提升,证明其在保留双线性上采样中丢失的精细细节方面具有显著效果。
- HDC 框架通过实现更密集的采样模式,有效缓解了棋盘效应,尤其在感受野较大的深层网络中表现更优。
- 该方法在所有三个基准上均实现了 SOTA 性能,且无需模型集成或多尺度测试,凸显了所提模块的鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。