[論文レビュー] Deep Dual-resolution Networks for Real-time and Accurate Semantic Segmentation of Road Scenes
DDRNet は、双方向融合を備えた双分解能の深部ブランチと Deep Aggregation Pyramid Pooling Module を導入し、道路シーンの高精度リアルタイム意味セグメンテーションを実現します。CityscapesとCamVidで新しい速度-精度のトレードオフを確立します。
Semantic segmentation is a key technology for autonomous vehicles to understand the surrounding scenes. The appealing performances of contemporary models usually come at the expense of heavy computations and lengthy inference time, which is intolerable for self-driving. Using light-weight architectures (encoder-decoder or two-pathway) or reasoning on low-resolution images, recent methods realize very fast scene parsing, even running at more than 100 FPS on a single 1080Ti GPU. However, there is still a significant gap in performance between these real-time methods and the models based on dilation backbones. To tackle this problem, we proposed a family of efficient backbones specially designed for real-time semantic segmentation. The proposed deep dual-resolution networks (DDRNets) are composed of two deep branches between which multiple bilateral fusions are performed. Additionally, we design a new contextual information extractor named Deep Aggregation Pyramid Pooling Module (DAPPM) to enlarge effective receptive fields and fuse multi-scale context based on low-resolution feature maps. Our method achieves a new state-of-the-art trade-off between accuracy and speed on both Cityscapes and CamVid dataset. In particular, on a single 2080Ti GPU, DDRNet-23-slim yields 77.4% mIoU at 102 FPS on Cityscapes test set and 74.7% mIoU at 230 FPS on CamVid test set. With widely used test augmentation, our method is superior to most state-of-the-art models and requires much less computation. Codes and trained models are available online.
研究の動機と目的
- 高精度を備えた自動運転のリアルタイム意味セグメンテーションを動機づける。
- 高解像表現と意味的文脈をバランスさせる効率的なバックボーンを開発する。
- 双分解能融合レベルが速度と精度に与える影響を分離して検討する。
- 軽量で文脈豊かなモジュール(DAPPM)を導入し、低解像度特徴を高負荷なく強化する。
提案手法
- 異なる解像度で二つの深いブランチを持つDDRNetファミリを設計する。
- 複数の段階で高解像度ブランチと低解像度ブランチ間の双方向融合を実装する。
- 低解像度マップ上のマルチスケール文脈を捉える Deep Aggregation Pyramid Pooling Module(DAPPM)を提案する。
- 計算量を制御するために出力チャネルを調整可能なシンプルなセグメンテーションヘッドを使用する。
- 訓練時にディープスーパービジョンを適用して最適化を安定化する。
- Semantic segmentation データセットを微調整する前に ImageNet でプリトレーニングを行う。
実験結果
リサーチクエスチョン
- RQ1双分解能ネットワークと双方向融合は、単一解像度や拡張バックボーン法より高いリアルタイムセグメンテーション精度を達成できるか?
- RQ2Deep Aggregation Pyramid Pooling Module は、低解像度特徴に対して速度への影響がほとんどなく、より豊かなマルチスケール文脈を提供するか?
- RQ3道路シーンセグメンテーションにおけるネットワークの深さ/幅と推論速度の最適なトレードオフは何か?
- RQ4Cityscapes、CamVid、COCOStuff における DDRNet の性能は、最先端のリアルタイムモデルと比べてどうか?
主な発見
| Model | Cityscapes Test MIoU | Speed (FPS) | GPU | Input Resolution | GFLOPs | Params (M) |
|---|---|---|---|---|---|---|
| DDRNet-23-slim | 77.4 | 102 | GTX 2080Ti | 2048x1024 | 36.3 | 5.7 |
| DDRNet-23 | 79.4 | 37 | GTX 2080Ti | 2048x1024 | 143.1 | 20.1 |
| DDRNet-39 | 80.4 | 22 | GTX 2080Ti | 2048x1024 | 281.2 | 32.3 |
- DDRNet-23-slim は Cityscapes テストセットで 102 FPS、77.4% mIoU を達成。
- DDRNet-23 は Cityscapes テストで 37 FPS、79.4% mIoU。
- DDRNet-39 は Cityscapes テストで 22 FPS、80.4% mIoU。
- CamVid では DDRNet-23-slim が 230 FPS、Cityscapes pre-training なしで 74.7% mIoU。
- COCOStuff では DDRNet-23 と DDRNet-39 がそれぞれ高速度で 32.1 と 34.8 mIoU。
- Cityscapes の pre-training と TensorRT 加速を用い、DDRNet-23 は Cityscapes で 94 FPS、80.6% mIoU。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。