QUICK REVIEW

[论文解读] Learning Deconvolution Network for Semantic Segmentation

Hyeonwoo Noh, Seunghoon Hong|arXiv (Cornell University)|May 17, 2015

Advanced Neural Network Applications参考文献 25被引用 612

一句话总结

该论文提出了一种去卷积网络用于语义分割，通过反转预训练的VGG-16网络的特征层次，学习重建密集且高分辨率的分割掩码。通过将训练好的网络应用于目标提议并组合结果，该方法克服了全卷积网络（FCN）的尺度限制，在不使用外部数据的情况下于PASCAL VOC 2012数据集上实现了最先进性能（72.5% mIoU），并通过与FCN-8s模型集成进一步提升了性能。

ABSTRACT

We propose a novel semantic segmentation algorithm by learning a deconvolution network. We learn the network on top of the convolutional layers adopted from VGG 16-layer net. The deconvolution network is composed of deconvolution and unpooling layers, which identify pixel-wise class labels and predict segmentation masks. We apply the trained network to each proposal in an input image, and construct the final semantic segmentation map by combining the results from all proposals in a simple manner. The proposed algorithm mitigates the limitations of the existing methods based on fully convolutional networks by integrating deep deconvolution network and proposal-wise prediction; our segmentation method typically identifies detailed structures and handles objects in multiple scales naturally. Our network demonstrates outstanding performance in PASCAL VOC 2012 dataset, and we achieve the best accuracy (72.5%) among the methods trained with no external data through ensemble with the fully convolutional network.

研究动机与目标

解决基于全卷积网络（FCN）的语义分割中尺度不变性与粗粒度特征表示的问题。
通过学习多层去卷积网络（包含去卷积和未池化层）来提升细粒度对象细节的恢复能力。
通过在目标提议上进行实例级预测，克服FCN固有的感受野限制。
仅使用VOC 2012数据集并结合模型集成，在PASCAL VOC 2012数据集上实现最先进性能。

提出的方法

在VGG-16特征之上训练深层去卷积网络，利用去卷积、未池化和ReLU层逐步上采样特征图。
使用监督学习方法端到端训练网络，以真实分割掩码作为监督目标。
从输入图像中提取目标提议，并将每个提议输入去卷积网络，生成实例级分割掩码。
通过一种简单且不可微的融合策略，将所有提议的预测结果组合生成最终的分割图。
通过与FCN-8s模型集成，利用两种架构之间的互补优势。
可选地应用ACRF对输出进行细化，尽管其在定量指标上仅带来微小提升。

实验结果

研究问题

RQ1与FCN中使用的双线性插值相比，学习得到的去卷积网络是否能更有效地重建详细且高分辨率的分割掩码？
RQ2在目标提议上进行实例级预测是否能缓解语义分割中的尺度相关误分类与碎片化问题？
RQ3仅在PASCAL VOC 2012数据集上训练的去卷积网络是否能实现无外部数据支持下的最先进性能？
RQ4所提出的去卷积网络与FCN-8s之间的互补特性，在模型集成后如何提升整体性能？

主要发现

所提出的去卷积网络在PASCAL VOC 2012验证集上实现了72.5%的平均交并比（mIoU），是目前在无外部数据训练方法中最佳结果。
将去卷积网络与FCN-8s进行集成可进一步提升性能，有效纠正两个模型各自的错误预测，获得更优结果。
该方法在恢复细粒度对象结构方面表现优异，对多尺度对象（尤其是小尺寸或碎片化对象）的处理优于基于FCN的方法。
尽管CRF细化能减少噪声，但在定量指标上仅带来微小提升，表明去卷积网络本身已能生成高质量输出。
网络对错位或背景目标提议表现出鲁棒性，但此类情况偶尔仍会导致噪声预测。
该架构通过渐进式的去卷积与未池化操作，实现从粗到细的物体形状重建，从而提升定位精度。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。