[論文レビュー] Real-Time Semantic Segmentation via Multiply Spatial Fusion Network
MSFNetは、Spatial Aware PoolingとClass Boundary Supervisionを備えたMulti-features Fusion Moduleで高解像度画像の高速・高精度なリアルタイムセマンティックセグメンテーションを実現します。
Real-time semantic segmentation plays a significant role in industry applications, such as autonomous driving, robotics and so on. It is a challenging task as both efficiency and performance need to be considered simultaneously. To address such a complex task, this paper proposes an efficient CNN called Multiply Spatial Fusion Network (MSFNet) to achieve fast and accurate perception. The proposed MSFNet uses Class Boundary Supervision to process the relevant boundary information based on our proposed Multi-features Fusion Module which can obtain spatial information and enlarge receptive field. Therefore, the final upsampling of the feature maps of 1/8 original image size can achieve impressive results while maintaining a high speed. Experiments on Cityscapes and Camvid datasets show an obvious advantage of the proposed approach compared with the existing approaches. Specifically, it achieves 77.1% Mean IOU on the Cityscapes test dataset with the speed of 41 FPS for a 1024*2048 input, and 75.4% Mean IOU with the speed of 91 FPS on the Camvid test dataset.
研究の動機と目的
- 速度と精度の両立が求められる高解像度シーンにおけるリアルタイムセマンティックセグメンテーションの動機づけ。
- 高コストをかけず受容野を拡張する、計算効率の良いバックボーンに優しいアーキテクチャの開発。
- マルチスケール特徴の融合によってリアルタイム推論を維持しつつ空間情報を保持。
- クラス境界監 supervision 機構を用いてエッジ関連情報の喪失を緩和。
- CityscapesとCamVidのベンチマークにおける最先端のリアルタイム性能を示す。
提案手法
- バックボーンブロックごとの後で多尺度特徴を抽出するSpatial Aware Pooling(SAP)を導入。
- 同一解像度の出力を融合し、低コストで受容野を拡張するMulti-features Fusion Module(MFM)を構築。
- エッジ情報を回復するため、2つの独立したアップサンプリングブランチを備えたClass Boundary Supervision(CBS)を提案。
- 入力サイズの1/8から最終特徴マップをアップサンプリングして速度を維持しつつディテールを保持。
- 軽量なResNet-18バックボーンと深さ方向分離畳み込みを用いたシンプルなエンコーダ-デコーダーパイプラインで計算を削減。
- セマンティックセグメンテーション損失と境界に焦点を当てた損失を組み合わせたデュアル損失目的で学習。
実験結果
リサーチクエスチョン
- RQ1リアルタイム設定で空間的なディテールを保持しつつ受容野を拡大する多尺度特徴融合をどのように設計できるか。
- RQ2境界認識を取り入れた監視は速度を損なうことなくエッジ保持と全体的なセグメンテーション精度を向上させるか。
- RQ3標準データセットにおけるさまざまなSAP構成とCBS設計がmIoUとFPSに与える影響は何か。
主な発見
- Cityscapesで、1024x2048入力で77.1%のmIoUを41 FPSで達成(CBSあり)。
- CBSなしでは75.4% mIoU、47 FPSに達する; CBSありで77.1% mIoU、41 FPS。
- 512x1024入力のCityscapesで71.3% mIoU、117 FPS。
- CamVidでは、512x1024入力で75.4% mIoU、91 FPS、そして1024x2048入力で72.7% mIoU、160 FPS。
- アブレーションにより、MFMとCBSがリアルタイム領域でベースラインのエンコーダ/デコーダに対して有意な利得をもたらすことを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。