Skip to main content
QUICK REVIEW

[論文レビュー] CCNet: Criss-Cross Attention for Semantic Segmentation

Zilong Huang, Xinggang Wang|arXiv (Cornell University)|Nov 28, 2018
Advanced Neural Network Applications参考文献 77被引用数 349
ひとこと要約

CCNetは再帰的なクリスクロス注意モジュールを導入し、全画像の文脈情報を効率的に捉え、非局所アプローチより低いメモリと計算量で最先端のセグメンテーション結果を達成します。

ABSTRACT

Contextual information is vital in visual understanding problems, such as semantic segmentation and object detection. We propose a Criss-Cross Network (CCNet) for obtaining full-image contextual information in a very effective and efficient way. Concretely, for each pixel, a novel criss-cross attention module harvests the contextual information of all the pixels on its criss-cross path. By taking a further recurrent operation, each pixel can finally capture the full-image dependencies. Besides, a category consistent loss is proposed to enforce the criss-cross attention module to produce more discriminative features. Overall, CCNet is with the following merits: 1) GPU memory friendly. Compared with the non-local block, the proposed recurrent criss-cross attention module requires 11x less GPU memory usage. 2) High computational efficiency. The recurrent criss-cross attention significantly reduces FLOPs by about 85% of the non-local block. 3) The state-of-the-art performance. We conduct extensive experiments on semantic segmentation benchmarks including Cityscapes, ADE20K, human parsing benchmark LIP, instance segmentation benchmark COCO, video segmentation benchmark CamVid. In particular, our CCNet achieves the mIoU scores of 81.9%, 45.76% and 55.47% on the Cityscapes test set, the ADE20K validation set and the LIP validation set respectively, which are the new state-of-the-art results. The source codes are available at \url{https://github.com/speedinghzl/CCNet}.

研究の動機と目的

  • dense semantic segmentationのために全画像の文脈情報を動機づけ・モデル化する。
  • クリスククロス経路に沿って文脈を集約する軽量な注意モジュールを設計する。
  • カテゴリ一貫性の損失で識別力を高める。
  • ビデオタスクと時間的文脈のために3Dまで拡張。
  • 複数のセグメンテーションベンチマークで最先端の性能を示す。

提案手法

  • 各ピクセルの行と列に沿って注意を向けるクリスククロス注意モジュールを提案し、注目重みを位置ごとに約2√Nへ削減する。
  • 二つのクリスククロス注意モジュールを積み重ねてRCCAを適用し、情報を全ピクセルへ伝播させる。
  • RCCAのパラメータを共有し、_dense_な文脈と局所特徴を融合してセグメンテーション予測に用いる。
  • intra-classの特徴をコンパクトにし、 inter-class分離を促すカテゴリ一貫性損失を導入する。
  • 動画データと時間的文脈統合のためにRCCAを3Dへ拡張する。

実験結果

リサーチクエスチョン

  • RQ1クリスククロス注意はDenseな予測のために全画像の文脈を効率的に捉えられるか。
  • RQ2クリスククロス注意の再帰的スタックは計算量とメモリを削減しつつ全画像依存関係を達成するか。
  • RQ3カテゴリ一貫性の損失はRCCA特徴の識別性を向上させるか。
  • RQ4CCNetは主要なセグメンテーションベンチマークで非局所法や他の文脈統合法と比較してどうか。
  • RQ5アプローチは3Dへ拡張して動画データの時間的文脈を扱えるか。

主な発見

  • CCNetはCityscapesテストでのmIoUが81.9%、ADE20K検証でのmIoUが45.76%、LIP検証でのmIoUが55.47%と最先端の結果を達成。
  • クリスククロス注意モジュールは非局所ブロックと比較してメモリ使用量を約11倍、FLOPsを約85%削減する。
  • RCCAは2回の連続的なクリスククロス注意パスを共有パラメータで用いながら密な文脈情報収集を実現。
  • カテゴリ一貫性の損失はRCCAと組み合わせることで特徴の識別性とセグメンテーション性能を改善。
  • 3Dクリスクロス注意は動画セグメンテーションタスクのための時間的文脈へアプローチを拡張。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。