Skip to main content
QUICK REVIEW

[論文レビュー] CGNet: A Light-weight Context Guided Network for Semantic Segmentation

Tianyi Wu, Sheng Tang|arXiv (Cornell University)|Nov 20, 2018
Advanced Neural Network Applications参考文献 38被引用数 83
ひとこと要約

CGNetは軽量なContext Guided (CG)ブロックとCGNetネットワークを導入し、0.5M未満のパラメータでも競争力のあるセマンティックセグメンテーション精度を実現。Cityscapesで64.8% mIoUに適したモバイル展開向け。

ABSTRACT

The demand of applying semantic segmentation model on mobile devices has been increasing rapidly. Current state-of-the-art networks have enormous amount of parameters hence unsuitable for mobile devices, while other small memory footprint models follow the spirit of classification network and ignore the inherent characteristic of semantic segmentation. To tackle this problem, we propose a novel Context Guided Network (CGNet), which is a light-weight and efficient network for semantic segmentation. We first propose the Context Guided (CG) block, which learns the joint feature of both local feature and surrounding context, and further improves the joint feature with the global context. Based on the CG block, we develop CGNet which captures contextual information in all stages of the network and is specially tailored for increasing segmentation accuracy. CGNet is also elaborately designed to reduce the number of parameters and save memory footprint. Under an equivalent number of parameters, the proposed CGNet significantly outperforms existing segmentation networks. Extensive experiments on Cityscapes and CamVid datasets verify the effectiveness of the proposed approach. Specifically, without any post-processing and multi-scale testing, the proposed CGNet achieves 64.8% mean IoU on Cityscapes with less than 0.5 M parameters. The source code for the complete system can be found at https://github.com/wutianyiRosun/CGNet.

研究の動機と目的

  • メモリと計算資源が限られたモバイルデバイスでのセマンティックセグメンテーションの動機付け。
  • 空間的ディテールを保持しつつ、局所・周囲・グローバルなコンテキストを活用するネットワークの設計。
  • コンテキストガイド型(CG)ブロックを備えた軽量のバックボーン(CGNet)を提案し、局所・周囲・グローバル機能を学習。
  • パラメータ数とメモリフットプリントを削減しつつ高いセグメンテーション精度を維持。

提案手法

  • ローカル特徴抽出器、周囲コンテキスト抽出器、結合特徴抽出器、グローバルコンテキスト抽出器で構成されるCGブロックを導入。
  • 周囲コンテキストには膨張(dilated)畳み込みを使用し、結合特徴を再重み付けするグローバルコンテキスト経路を併用。
  • 情報フローを改善するために残差接続(局所およびグローバル残差学習)を適用。
  • CGNetを3段階のダウンサンプリング(1/2, 1/4, 1/8解像度)とチャネルワイズ畳み込みで構成し、パラメータを節約。
  • 入力注入を取り入れてダウンサンプリングされた入力を後段へ供給し、特徴伝播を強化。
  • CityscapesとCamVidでのトレーニング・評価を行い、ポスト処理やマルチスケールテストを用いず、小さなフットプリントと高精度モデルと比較。

実験結果

リサーチクエスチョン

  • RQ1モバイルデバイスの限られたメモリと計算リソースで、精度を犠牲にせずセマンティックセグメンテーションをどう効率化できるか。
  • RQ2局所特徴・周囲コンテキスト・グローバルコンテキストを共同モデル化するブロックは、従来のエンコーダ-デコーダ設計よりセグメンテーション性能を向上させるか。
  • RQ3全段で軽量のコンテキスト導 guidedブロックを使用した場合、CityscapesとCamVidデータセットにどのような影響があるか。

主な発見

MethodFLOPS (G) ↓Parameters (M) ↓Memory (M) ↓mIoU (%) ↑Time (ms) ↓
CGNet_M3N216.00.5334.064.856.8
  • CGNetはCityscapesのテストセットで64.8%のmean IoUを0.5M未満のパラメータで達成。
  • 同等のパラメータ数で、ENetやESPNetなど他の小さなフットプリントモデルを上回る。
  • グローバルコンテキストと周囲コンテキストの成分が性能を大きく向上させる;完全な周囲コンテキストとグローバルコンテキストモジュールを用いたアブレーションで顕著な向上を示す。
  • CGNetはダウンサンプリング段を3つのみ(1/8解像度)とチャネルワイズ畳み込みを用い、パラメータとメモリ使用量を最小化。
  • CityscapesではCGNet_M3N21が0.5Mパラメータで64.8% mIoUを達成し、競合する実行時間を示す;CamVidでは0.5Mパラメータで65.6% mIoUを達成。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。