Skip to main content
QUICK REVIEW

[論文レビュー] Gated-SCNN: Gated Shape CNNs for Semantic Segmentation

Towaki Takikawa, David Acuna|arXiv (Cornell University)|Jul 12, 2019
Advanced Neural Network Applications参考文献 57被引用数 114
ひとこと要約

GSCNNは、形状・境界処理を標準のセグメンテーションストリームから分離する2ストリームアーキテクチャを導入し、ストリーム間のゲーティングとデュアルタスク損失を用いて境界品質と薄い対象の性能を向上させ、粗いデータを用いずにCityscapesで最先端の性能を達成します。

ABSTRACT

Current state-of-the-art methods for image segmentation form a dense image representation where the color, shape and texture information are all processed together inside a deep CNN. This however may not be ideal as they contain very different type of information relevant for recognition. Here, we propose a new two-stream CNN architecture for semantic segmentation that explicitly wires shape information as a separate processing branch, i.e. shape stream, that processes information in parallel to the classical stream. Key to this architecture is a new type of gates that connect the intermediate layers of the two streams. Specifically, we use the higher-level activations in the classical stream to gate the lower-level activations in the shape stream, effectively removing noise and helping the shape stream to only focus on processing the relevant boundary-related information. This enables us to use a very shallow architecture for the shape stream that operates on the image-level resolution. Our experiments show that this leads to a highly effective architecture that produces sharper predictions around object boundaries and significantly boosts performance on thinner and smaller objects. Our method achieves state-of-the-art performance on the Cityscapes benchmark, in terms of both mask (mIoU) and boundary (F-score) quality, improving by 2% and 4% over strong baselines.

研究の動機と目的

  • セマンティックセグメンテーションにおいて、色・質感から形状/境界情報を分離する動機。
  • 正規のセグメンテーションストリームと並行して境界関連情報を処理する形状ストリームを持つ2ストリームCNNを開発する。
  • 正規ストリームの中間表現を形状ストリームへ接続してデノイズし境界情報のガイドとするゲーティング機構(Gated Convolutional Layers)を導入する。
  • 境界認識を持つ補助タスクを含むデュアルタスク損失でエンドツーエンドに訓練し、予測と真の境界を一致させる。
  • 形状と領域特徴を統合するフュージョンモジュールを活用し、多段階の文脈を保持しつつ境界の鋭さと小さな物体認識を向上させる。

提案手法

  • 2ストリームアーキテクチャ:正規のセグメンテーションストリーム(ResNet/WideResNetなどのバックボーン)と境界に焦点を当てた形状ストリーム。
  • Gated Convolutional Layer (GCL) は正規ストリームの高次情報を用いて、アテンションマップを介して初期の形状ストリームの活性化をゲート/デノイズする。
  • 形状ストリームは境界のグラウンドトゥルースにより二値交差エントロピー損失で監督される。
  • 正規ストリームの特徴と形状ストリームの境界を Atrous Spatial Pyramid Pooling (ASPP) で結合し、最終的なセグメンテーションを生成するフュージョンモジュール。
  • 境界とセグメンテーションの一貫性を強制し、予測境界と意味ラベルの整合を促すデュアルタスク正則化項。
  • 境界 BCE、セグメンテーション CE、正則化項からなる損失でエンドツーエンドの結合最適化を行い、非微分可能な境界導出成分を通じた勾配流れには Gumbel-softmax を用いる。

実験結果

リサーチクエスチョン

  • RQ1形状/境界情報を専用のストリームに分離することで、特に物体境界や薄い物体でセマンティックセグメンテーションが改善されるか?
  • RQ2通常のセグメンテーションストリームと形状/境界ストリーム間のゲートをどのように設計して、形状ストリームを境界関連特徴にデノイズ・フォーカスさせるか?
  • RQ3境界指向の補助タスクとデュアルタスク正則化を用いた共同訓練は、境界整合性と全体のセグメンテーション評価指標を改善するか?
  • RQ4主セグメンテーションネットワークの高次特徴に導かれる浅くて高解像度の形状ストリームは実用的で有益か?
  • RQ5Cityscapes における異なるバックボーンとカメラからの距離に応じた距離ベース評価で GSCNN はどうなるか?

主な発見

  • GSCNN は強力なベースラインと比較して Cityscapes で mIoU と境界品質を向上させ、特に細い/小さな物体(例:ポール、交通標識/ライト)で顕著な改善を示す。
  • 正規ストリームによりゲートされた形状ストリームは軽量なまま、高品質でクラス非依存の境界を生成し、領域特徴とのフュージョンを高める。
  • Gated Convolutional Layers は形状ストリームの活性化を境界関連情報に焦点を当てて効果的にフィルタリングし、高解像度処理を重い計算なしで実現する。
  • デュアルタスク正則化は、境界予測と最終クラス予測を結合することで、境界の整合とセグメンテーションの意味論をさらに向上させる。
  • 距離ベースの評価は、遠距離/小さな物体に対しても GSCNN の優位性を維持し、より大きなクロップ因子で最大約6%のmIoU改善を示し、粗データを用いない Cityscapes において全体的に最先端の性能を発揮する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。