[论文解读] SERNet-Former: Semantic Segmentation by Efficient Residual Network with Attention-Boosting Gates and Attention-Fusion Networks
SERNet-Former 提出了一种基于 Efficient-ResNet 的编码器–解码器架构,以及用于提高效率的注意力增强门/模块和注意力融合网络,以高效融合全局/局部上下文,在 CamVid 和 Cityscapes 验证集上实现了当前最佳的平均 IoU。
Improving the efficiency of state-of-the-art methods in semantic segmentation requires overcoming the increasing computational cost as well as issues such as fusing semantic information from global and local contexts. Based on the recent success and problems that convolutional neural networks (CNNs) encounter in semantic segmentation, this research proposes an encoder-decoder architecture with a unique efficient residual network, Efficient-ResNet. Attention-boosting gates (AbGs) and attention-boosting modules (AbMs) are deployed by aiming to fuse the equivariant and feature-based semantic information with the equivalent sizes of the output of global context of the efficient residual network in the encoder. Respectively, the decoder network is developed with the additional attention-fusion networks (AfNs) inspired by AbM. AfNs are designed to improve the efficiency in the one-to-one conversion of the semantic information by deploying additional convolution layers in the decoder part. Our network is tested on the challenging CamVid and Cityscapes datasets, and the proposed methods reveal significant improvements on the residual networks. To the best of our knowledge, the developed network, SERNet-Former, achieves state-of-the-art results (84.62 % mean IoU) on CamVid dataset and challenging results (87.35 % mean IoU) on Cityscapes validation dataset.
研究动机与目标
- 在保持高精度的同时提升语义分割效率。
- 在编码器–解码器框架内,利用注意力增强机制融合全局与局部上下文。
- 通过注意力融合网络提升解码器的效率,以改善一对一语义信息映射。
提出的方法
- 提出以 Efficient-ResNet 为骨干的编码器–解码器架构。
- 引入注意力增强门(AbGs)和注意力增强模块(AbMs),以融合等变和基于特征的语义信息。
- 在解码器中开发注意力融合网络(AfNs),以提高语义信息转换的效率。
- 在解码器中使用额外卷积层以支持基于 AfN 的融合。
- 在 CamVid 和 Cityscapes 数据集上进行评估,给出平均 IoU 提升结果。
实验结果
研究问题
- RQ1一个高效的残差骨干结合注意力增强组件是否可在不过度计算的前提下提升语义分割性能?
- RQ2AbGs 与 AbMs 如何在编码器–解码器内实现全局/上下文特征与局部特征的融合?
- RQ3解码器中的 AfNs 是否提升了一对一语义信息映射的效率与准确性?
- RQ4在标准基准 CamVid 和 Cityscapes 上的性能提升是多少?
主要发现
| 数据集 | Mean IoU (%) |
|---|---|
| CamVid | 84.62 |
| Cityscapes 验证集 | 87.35 |
- 在 CamVid 上达到 84.62% 的平均 IoU。
- 在 Cityscapes 验证集上达到 87.35% 的平均 IoU。
- 相较于基线残差网络显示显著提升。
- 证明注意力增强门/模块在融合多尺度上下文信息方面的有效性。
- 确认解码端的注意力融合网络提升了高效的语义信息映射。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。