[论文解读] Fully Convolutional Networks for Semantic Segmentation
该论文将分类网络转换为全卷积网络以执行端到端的逐像素语义分割,提出跳跃连接以融合多尺度特征,并在快速推理下实现了最先进的结果。
Convolutional networks are powerful visual models that yield hierarchies of features. We show that convolutional networks by themselves, trained end-to-end, pixels-to-pixels, improve on the previous best result in semantic segmentation. Our key insight is to build "fully convolutional" networks that take input of arbitrary size and produce correspondingly-sized output with efficient inference and learning. We define and detail the space of fully convolutional networks, explain their application to spatially dense prediction tasks, and draw connections to prior models. We adapt contemporary classification networks (AlexNet, the VGG net, and GoogLeNet) into fully convolutional networks and transfer their learned representations by fine-tuning to the segmentation task. We then define a skip architecture that combines semantic information from a deep, coarse layer with appearance information from a shallow, fine layer to produce accurate and detailed segmentations. Our fully convolutional network achieves improved segmentation of PASCAL VOC (30% relative improvement to 67.2% mean IU on 2012), NYUDv2, SIFT Flow, and PASCAL-Context, while inference takes one tenth of a second for a typical image.
研究动机与目标
- 证明端到端训练的全卷积网络在无需额外后处理的情况下可以提升语义分割的效果。
- 将分类网络(AlexNet、VGG、GoogLeNet)改造为FCN并进行对密集预测的微调。
- 引入跳跃连接以融合深层语义信息和浅层外观信息,从而实现精准分割。
- 研究训练策略(全图训练 vs 补丁训练)以及上采样层的端到端可学习性。
提出的方法
- 通过用卷积替换全连接层,将预训练的分类网络变为全卷积网络。
- 在网络内添加上采样(反卷积)层以产生密集的逐像素输出。
- 引入跳跃连接,将来自多个层的特征(如 pool3/pool4)融合以细化空间细节。
- 对整个网络在分割真值上进行端到端微调。
- 尝试单流(32s)、双流(16s)和三流(8s)架构,以权衡分辨率和精度。
实验结果
研究问题
- RQ1端到端训练的FCN是否能够在不依赖外部后处理的情况下实现高质量的密集逐像素分割?
- RQ2在有无跳跃连接的情况下,将分类网络改造为FCN对分割精度和推理速度有何影响?
- RQ3多尺度特征融合(跳跃连接)对分割中的空间细节与全局语义有何影响?
- RQ4全图训练是否比补丁训练在密集预测方面更高效且同样有效?
主要发现
| 像素准确率 | 平均准确率 | 平均 IU | 频率加权的 IU |
|---|---|---|---|
| 90.5 | 76.5 | 63.6 | 83.5 |
| 91.0 | 78.1 | 65.0 | 84.3 |
| 91.1 | 78.5 | 65.4 | 84.4 |
| 91.2 | 77.6 | 65.5 | 84.5 |
| 82.9 | 64.6 | 46.6 | 72.3 |
| 87.4 | 60.5 | 50.0 | 78.5 |
| 78.7 | 31.7 | 22.4 | 67.0 |
| 70.9 | 13.7 | 9.2 | 57.6 |
- 基于FCN-VGG16的模型在 PASCAL VOC 2011 分割及其他数据集上超越了先前的最先进方法。
- 实现来自 pool4 与 pool3 的特征融合的跳跃连接可以提升平均 IU 与细节(如 FCN-16s 和 FCN-8s 的性能优于 FCN-32s)。
- 端到端微调并在网络内进行上采样相比基于补丁的方法在精度上具有竞争力且推理更快。
- 使用全图训练能够更快收敛,并且在密集预测方面与补丁采样同样有效。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。