Skip to main content
QUICK REVIEW

[論文レビュー] Spatial-Assistant Encoder-Decoder Network for Real Time Semantic Segmentation

Yalun Wang, Shidong Chen|arXiv (Cornell University)|Sep 19, 2023
Advanced Neural Network Applications被引用数 8
ひとこと要約

SANetはエンコーダ-デコーダと二経路設計を組み合わせ、APP PMでマルチスケール文脈とSADで効率的なデコーダ注意を実現。CityscapesとCamVidで競争力のあるmIoUと高いFPSを達成。

ABSTRACT

Semantic segmentation is an essential technology for self-driving cars to comprehend their surroundings. Currently, real-time semantic segmentation networks commonly employ either encoder-decoder architecture or two-pathway architecture. Generally speaking, encoder-decoder models tend to be quicker,whereas two-pathway models exhibit higher accuracy. To leverage both strengths, we present the Spatial-Assistant Encoder-Decoder Network (SANet) to fuse the two architectures. In the overall architecture, we uphold the encoder-decoder design while maintaining the feature maps in the middle section of the encoder and utilizing atrous convolution branches for same-resolution feature extraction. Toward the end of the encoder, we integrate the asymmetric pooling pyramid pooling module (APPPM) to optimize the semantic extraction of the feature maps. This module incorporates asymmetric pooling layers that extract features at multiple resolutions. In the decoder, we present a hybrid attention module, SAD, that integrates horizontal and vertical attention to facilitate the combination of various branches. To ascertain the effectiveness of our approach, our SANet model achieved competitive results on the real-time CamVid and cityscape datasets. By employing a single 2080Ti GPU, SANet achieved a 78.4 % mIOU at 65.1 FPS on the Cityscape test dataset and 78.8 % mIOU at 147 FPS on the CamVid test dataset. The training code and model for SANet are available at https://github.com/CuZaoo/SANet-main

研究の動機と目的

  • リアルタイムのセマンティックセグメンテーションを、精度と速度のバランスを取りながら推進する。
  • エンコーダ-デコーダと二経路の概念を融合するハイブリッドアーキテクチャを開発する。
  • 速度を犠牲にせず空間情報とマルチスケール文脈を保持するモジュールを導入する。
  • CityscapesとCamVidデータセットで競争力のある性能を示す。

提案手法

  • SANetを提案。主バックボーンには高解像度特徴を維持する空間拡張パスを併設。
  • encoder の端にAPPPM(Asymmetric Pooling Pyramid Pooling Module)を導入し、アシンメトリックプーリング形状とポストプーリングの1x1畳み込みを通じてマルチスケール文脈を取得。
  • SAD(Simple Attention Decoder)を設計し、水平・垂直アテンションを学習する非対称の1x3および3x1畳み込みを用いて高解像度と低解像度の特徴を融合。
  • 速度を保つために単一の軽量デコーダを使用しつつ多分岐のセマンティック情報を活用。
  • ImageNetプリトレーニング後にセグメンテーション学習を実施。ポリーニュラル・ラーニングレートポリシーと補助/境界損失を監督として採用。

実験結果

リサーチクエスチョン

  • RQ1ハイブリッドなSANetアーキテクチャは、実時間セマンティックセグメンテーションにおいて純粋なエンコーダ-デコーダモデルや二経路モデルを上回るか。
  • RQ2APPPMは従来のPPM/ASPPアプローチと比べてマルチスケール文脈特徴抽出を改善するか。
  • RQ3Simple Attention Decoderは高解像度と低解像度の特徴を効果的に融合し、FPSを損なうことなくmIoUを向上させるか。
  • RQ4CityscapesとCamVidにおけるSANetの精度と推論速度の比較はどうなるか。

主な発見

  • SANetはCityscapesとCamVidで高いFPSと競争力のあるmIoUを実現(例:Cityscapes:78.4 mIoU、65.1 FPS/テストセット;CamVid:78.8 mIoU、147 FPS/テストセット)。
  • APPPMは標準のプーリングベースモジュールよりも優れたマルチスケール特徴抽出を提供し、より高いmIoUを実現(アブレーション評価でAPPPMはPPMを上回る)。
  • SADは水平・垂直アテンションを通じて複数分岐の特徴を効果的に融合し、情報喪失を低減して精度を向上。
  • アブレーション研究はAPPPMとSADの組み合わせが、ベースラインのエンコーダー+ブランチ手法よりmIoUで上回りつつリアルタイム速度を維持することを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。