[論文レビュー] Guided Upsampling Network for Real-Time Semantic Segmentation
tldr: マルチ解像度エンコーダ-デコーダ内に Guided Upsampling Module (GUM) を組み込み、リアルタイムのセマンティックセグメンテーションを実現。Cityscapes で post-processing なし、70.4% mIoU、33.3 FPS。
Semantic segmentation architectures are mainly built upon an encoder-decoder structure. These models perform subsequent downsampling operations in the encoder. Since operations on high-resolution activation maps are computationally expensive, usually the decoder produces output segmentation maps by upsampling with parameters-free operators like bilinear or nearest-neighbor. We propose a Neural Network named Guided Upsampling Network which consists of a multiresolution architecture that jointly exploits high-resolution and large context information. Then we introduce a new module named Guided Upsampling Module (GUM) that enriches upsampling operators by introducing a learnable transformation for semantic maps. It can be plugged into any existing encoder-decoder architecture with little modifications and low additional computation cost. We show with quantitative and qualitative experiments how our network benefits from the use of GUM module. A comprehensive set of experiments on the publicly available Cityscapes dataset demonstrates that Guided Upsampling Network can efficiently process high-resolution images in real-time while attaining state-of-the art performances.
研究の動機と目的
- 路上シーンのセマンティックセグメンテーションにおける推論速度と精度のトレードオフに対処する。
- 改善されたアップサンプリング演算子を備えた軽量でリアルタイム対応のデコーダを提案する。
- マルチ解像度アーキテクチャを通じて高解像度の詳細と大規模コンテキスト情報を活用する。
- ピクセル単位のアップサンプリングを導く学習可能な Guided Upsampling Module を導入する。
- Cityscapes で競争力のある精度とともにリアルタイム性能を示す。
提案手法
- 文脈と詳細を捉えるための低解像度および中解像度のブランチを持つマルチ解像度エンコーダを開発する。
- Guided Upsampling Module (GUM) を導入し、アップサンプリング時のサンプリングを誘導する Guidance Offset Table を使用する。
- Guidance Module を variant(large-rf、high-res、fusion)を用いて、アップサンプリンググリッドのオフセットを予測するよう設計する。
- momentum を伴う SGD、固定スケジュール、バッチサイズ 8 を用いて BN 統計量を正則化するよう訓練する。
- 推論速度に影響を与えず一般化を高めるため、ランダムスケールや色/照明のジッターなどのデータ拡張を検討する。
実験結果
リサーチクエスチョン
- RQ1学習可能なアップサンプリング変換は、リアルタイム速度を犠牲にすることなく境界の精度を向上させることができるか?
- RQ2Guided Upsampling Module を備えたマルチ解像度エンコーダは、Cityscapes における標準的なバイリニアアップサンプリングを上回るか?
- RQ3どの Guidance Module の設計が精度とスループットのバランスを最も取れるか?
- RQ4データ拡張がリアルタイムのセマンティックセグメンテーションの性能に与える影響は何か?
主な発見
| Name | Subsampling | mIoU (%) | FPS |
|---|---|---|---|
| SegNet | 4 | 57.0 | 26.4 |
| ENet | 2 | 58.3 | 121.5 |
| SQ | no | 59.8 | 26.4 |
| CRF-RNN | 2 | 62.5 | 2.2 |
| DeepLab | 2 | 63.1 | 0.4 |
| FCN-8S | no | 65.3 | 4.9 |
| Adelaide | no | 66.4 | 0.05 |
| Dilation10 | no | 67.1 | 0.4 |
| ICNet | no | 69.5 | 47.9 |
| ERFNet | 2 | 69.7 | 52.6 |
| GUN (ours) | 2 | 70.4 | 33.3 |
| DeepLabv3+ | no | 81.2 | n/a |
- GUN は Titan Xp で Cityscapes テストセットに対して 33.3 FPS で 70.4% mIoU を達成。
- Guided Upsampling Module はバイリニアアップサンプリングより顕著な境界改善を提供。
- Fusion Guidance Module は GUM バリアントの中で mIoU と FPS の最良のトレードオフを提供(69.64% mIoU、33.3 FPS)。
- マルチ解像度エンコーダは枝間で重み共有を行うことで、重み共有なしのバリアントより性能を向上させる。
- データ拡張をランダムスケーリングとともに用いると、実証可能な mIoU 増加を示し、有益な正則化を示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。