[论文解读] Deep Dual-resolution Networks for Real-time and Accurate Semantic Segmentation of Road Scenes
DDRNet 引入 dual-resolution 深度分支、双向融合以及 Deep Aggregation Pyramid Pooling Module,以实现对道路场景的高精度实时语义分割,在 Cityscapes 和 CamVid 上设定新的速度-精度权衡。
Semantic segmentation is a key technology for autonomous vehicles to understand the surrounding scenes. The appealing performances of contemporary models usually come at the expense of heavy computations and lengthy inference time, which is intolerable for self-driving. Using light-weight architectures (encoder-decoder or two-pathway) or reasoning on low-resolution images, recent methods realize very fast scene parsing, even running at more than 100 FPS on a single 1080Ti GPU. However, there is still a significant gap in performance between these real-time methods and the models based on dilation backbones. To tackle this problem, we proposed a family of efficient backbones specially designed for real-time semantic segmentation. The proposed deep dual-resolution networks (DDRNets) are composed of two deep branches between which multiple bilateral fusions are performed. Additionally, we design a new contextual information extractor named Deep Aggregation Pyramid Pooling Module (DAPPM) to enlarge effective receptive fields and fuse multi-scale context based on low-resolution feature maps. Our method achieves a new state-of-the-art trade-off between accuracy and speed on both Cityscapes and CamVid dataset. In particular, on a single 2080Ti GPU, DDRNet-23-slim yields 77.4% mIoU at 102 FPS on Cityscapes test set and 74.7% mIoU at 230 FPS on CamVid test set. With widely used test augmentation, our method is superior to most state-of-the-art models and requires much less computation. Codes and trained models are available online.
研究动机与目标
- 推动自动驾驶领域的高精度实时语义分割。
- 开发在高分辨率表示与语义上下文之间取得平衡的高效骨干网络。
- 研究双分辨率融合层次如何影响速度与精度。
- 引入一个轻量、富上下文的模块(DAPPM),在不显著增加成本的前提下增强低分辨率特征。
提出的方法
- 设计 DDRNet 家族,包含在不同分辨率下的两个深度分支。
- 在多个阶段实现高分辨率与低分辨率分支之间的双向融合。
- 提出 Deep Aggregation Pyramid Pooling Module (DAPPM),以在低分辨率特征图上捕获多尺度上下文。
- 使用一个简单的分割头,输出通道可调以控制计算量。
- 在训练中应用深度监督以稳定优化。
- 先在 ImageNet 上进行预训练,再在语义分割数据集上进行微调。
实验结果
研究问题
- RQ1双分辨率网络结合双向融合,能否实现比单分辨率或扩张骨干网络方法更高的实时分割精度?
- RQ2Deep Aggregation Pyramid Pooling Module 在低分辨率特征上是否提供更丰富的多尺度上下文且速度影响可以忽略?
- RQ3针对道路场景分割,网络深度/宽度与推理速度之间的最佳权衡是什么?
- RQ4相较于最先进的实时模型,DDRNet 在 Cityscapes、CamVid 和 COCOStuff 的表现如何?
主要发现
| Model | Cityscapes Test MIoU | Speed (FPS) | GPU | Input Resolution | GFLOPs | Params (M) |
|---|---|---|---|---|---|---|
| DDRNet-23-slim | 77.4 | 102 | GTX 2080Ti | 2048x1024 | 36.3 | 5.7 |
| DDRNet-23 | 79.4 | 37 | GTX 2080Ti | 2048x1024 | 143.1 | 20.1 |
| DDRNet-39 | 80.4 | 22 | GTX 2080Ti | 2048x1024 | 281.2 | 32.3 |
- DDRNet-23-slim 在 Cityscapes 测试集上以 102 FPS 实现 77.4% mIoU。
- DDRNet-23 在 Cityscapes 测试上以 37 FPS 实现 79.4% mIoU。
- DDRNet-39 在 Cityscapes 测试上以 22 FPS 实现 80.4% mIoU。
- 在 CamVid 上,DDRNet-23-slim 在不进行 Cityscapes 预训练的情况下达到 230 FPS 的 74.7% mIoU。
- 在 COCOStuff 上,DDRNet-23 和 DDRNet-39 在高速度下分别达到 32.1 和 34.8 mIoU。
- 在 Cityscapes 进行预训练并结合 TensorRT 加速后,DDRNet-23 在 Cityscapes 上达到 80.6% mIoU,速度 94 FPS。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。