Skip to main content
QUICK REVIEW

[論文レビュー] ICNet for Real-Time Semantic Segmentation on High-Resolution Images

Hengshuang Zhao, Xiaojuan Qi|arXiv (Cornell University)|Apr 27, 2017
Advanced Neural Network Applications参考文献 38被引用数 130
ひとこと要約

ICNetは、低解像度・中解像度・高解像度入力をカスケード機能融合ユニットとカスケードラベルガイダンスとともに処理する画像カスケードネットワークを導入し、高解像度画像上で十分な精度を保ちながらリアルタイムの意味セグメンテーションを実現する。

ABSTRACT

We focus on the challenging task of real-time semantic segmentation in this paper. It finds many practical applications and yet is with fundamental difficulty of reducing a large portion of computation for pixel-wise label inference. We propose an image cascade network (ICNet) that incorporates multi-resolution branches under proper label guidance to address this challenge. We provide in-depth analysis of our framework and introduce the cascade feature fusion unit to quickly achieve high-quality segmentation. Our system yields real-time inference on a single GPU card with decent quality results evaluated on challenging datasets like Cityscapes, CamVid and COCO-Stuff.

研究の動機と目的

  • 自動運転などの実用的な応用のために、高解像度画像におけるリアルタイム意味セグメンテーションを動機づける。
  • 高解像度セグメンテーションの計算上のボトルネックを特定し、素朴なスピードアップ戦略を評価する。
  • 高精度で高速な予測のために、マルチ解像度特徴を効率的に融合するICNetを開発する。

提案手法

  • 低解像度・中解像度・高解像度の入力を平行なブランチで処理する画像カスケードネットワーク(ICNet)を提案する。
  • 低解像度特徴をアップサンプルして高解像度のブランチと融合させる前に精緻化するカスケード特徴融合(CFF)ユニットを導入する。
  • 各ブランチをスケールに適したグラウンドトゥルーラベルで訓練するためにカスケードラベルガイダンス(CLG)を適用し、テスト時には高解像度ブランチのみを使用する。
  • 高解像度ブランチには軽量なCNNを用いて計算量を低減しつつディテールを保持する。
  • 訓練と推論でダウンサンプリングされた入力は、セグメンテーション品質を維持しつつ総計算量を削減する。

実験結果

リサーチクエスチョン

  • RQ1多解像度入力をどのように統合して、計算量を削減しつつセグメンテーション精度を維持できるか?
  • RQ2カスケード特徴融合は、過度なコストをかけずに粗い予測の精緻化を改善するか?
  • RQ3カスケードラベルガイダンスは訓練を安定化させ、解像度を跨いだ最終予測を改善できるか?

主な発見

  • ICNetは、単一の Titan X GPU 上で 1024×2048 Cityscapes 画像に対しリアルタイム推論(≈30 fps)を達成する。
  • 3つのカスケードブランチ(低・中・高解像度)を使用すると、圧縮PSPNetベースラインと同等のmIoUで大幅な速度向上(最大5.2×)を達成する。
  • カスケード特徴融合(CFF)は、マルチ解像度の精練化においてデコンボリューションベースのアップサンプリングより優れている。
  • カスケードラベルガイダンス(CLG)はブランチ間の学習を改善し、CLGを削除すると性能が低下する。
  • Cityscapesでは、3ブランチを用いたICNetは67.7% mIoU、ベースラインは67.9%で、速度向上は控えめ。細かいデータと粗いデータの両方で完全訓練すると、mIoUは70.6%に上昇し、リアルタイム速度を維持。
  • ICNetはCamVid (67.1% mIoU, 27.8 ms) および COCO-Stuff (29.1% mIoU, 28 ms) でも堅実な結果を示し、データセット間での有効性を実証する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。