[论文解读] Guided Upsampling Network for Real-Time Semantic Segmentation
引入在多分辨率编码器-解码器中的 Guided Upsampling Module (GUM),用于实时语义分割,在 Cityscapes 达到 33.3 FPS 下的 70.4% mIoU,且无需后处理。
Semantic segmentation architectures are mainly built upon an encoder-decoder structure. These models perform subsequent downsampling operations in the encoder. Since operations on high-resolution activation maps are computationally expensive, usually the decoder produces output segmentation maps by upsampling with parameters-free operators like bilinear or nearest-neighbor. We propose a Neural Network named Guided Upsampling Network which consists of a multiresolution architecture that jointly exploits high-resolution and large context information. Then we introduce a new module named Guided Upsampling Module (GUM) that enriches upsampling operators by introducing a learnable transformation for semantic maps. It can be plugged into any existing encoder-decoder architecture with little modifications and low additional computation cost. We show with quantitative and qualitative experiments how our network benefits from the use of GUM module. A comprehensive set of experiments on the publicly available Cityscapes dataset demonstrates that Guided Upsampling Network can efficiently process high-resolution images in real-time while attaining state-of-the art performances.
研究动机与目标
- 解决街景语义分割中的推理速度与准确性权衡。
- 提出一个轻量级、实时友好的解码器,改进上采样算子。
- 通过多分辨率架构利用高分辨率细节和大上下文信息。
- 引入一个可学习的 Guided Upsampling Module 来引导像素级上采样。
- 在 Cityscapes 上实现实时性能,同时保持具竞争力的准确性。
提出的方法
- 构建一个包含低分辨率和中分辨率分支的多分辨率编码器,以捕捉上下文与细节。
- 引入 Guided Upsampling Module (GUM),它使用 Guidance Offset Table 来在上采样过程中引导采样。
- 设计 Guidance Module 的变体(large-rf、high-res、fusion),以预测上采样网格的偏移量。
- 使用带动量的 SGD 训练,固定调度,批大小为 8,通过 BN 统计进行正则化。
- 探索数据增强(随机缩放、颜色/光照抖动)以提升泛化能力,同时不影响推理速度。
实验结果
研究问题
- RQ1一个可学习的上采样变换是否能在不牺牲实时速度的前提下提升边界准确性?
- RQ2具有 Guided Upsampling Module 的多分辨率编码器是否在 Cityscapes 上优于标准双线性上采样?
- RQ3哪种 Guidance Module 设计在准确性与吞吐量之间实现最佳平衡?
- RQ4数据增强对实时语义分割性能有何影响?
主要发现
| Name | Subsampling | mIoU (%) | FPS |
|---|---|---|---|
| SegNet | 4 | 57.0 | 26.4 |
| ENet | 2 | 58.3 | 121.5 |
| SQ | no | 59.8 | 26.4 |
| CRF-RNN | 2 | 62.5 | 2.2 |
| DeepLab | 2 | 63.1 | 0.4 |
| FCN-8S | no | 65.3 | 4.9 |
| Adelaide | no | 66.4 | 0.05 |
| Dilation10 | no | 67.1 | 0.4 |
| ICNet | no | 69.5 | 47.9 |
| ERFNet | 2 | 69.7 | 52.6 |
| GUN (ours) | 2 | 70.4 | 33.3 |
| DeepLabv3+ | no | 81.2 | n/a |
- GUN 在 Cityscapes 测试集以 33.3 FPS 的速度在 Titan Xp 上达到 70.4% mIoU。
- Guided Upsampling Module 相比双线性上采样在边界处带来显著改进。
- Fusion Guidance Module 在 mIoU 与 FPS 的权衡中提供了最佳折衷(69.64% mIoU,33.3 FPS)。
- 具有分支权重共享的多分辨率编码器相较于非共享变体在性能上有所提升。
- 使用随机缩放的数据增强可带来可衡量的 mIoU 增益,表明有益的正则化作用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。