Skip to main content
QUICK REVIEW

[論文レビュー] Pyramid Attention Network for Semantic Segmentation

Hanchao Li, Pengfei Xiong|arXiv (Cornell University)|May 25, 2018
Advanced Neural Network Applications参考文献 26被引用数 235
ひとこと要約

PAN は Feature Pyramid Attention と Global Attention Upsample を組み合わせ、グローバル文脈と多尺度特徴を活用し、VOC 2012 の mIoU を 84.0%、Cityscapes で COCO 前学習なしで最先端に達成。

ABSTRACT

A Pyramid Attention Network(PAN) is proposed to exploit the impact of global contextual information in semantic segmentation. Different from most existing works, we combine attention mechanism and spatial pyramid to extract precise dense features for pixel labeling instead of complicated dilated convolution and artificially designed decoder networks. Specifically, we introduce a Feature Pyramid Attention module to perform spatial pyramid attention structure on high-level output and combining global pooling to learn a better feature representation, and a Global Attention Upsample module on each decoder layer to provide global context as a guidance of low-level features to select category localization details. The proposed approach achieves state-of-the-art performance on PASCAL VOC 2012 and Cityscapes benchmarks with a new record of mIoU accuracy 84.0% on PASCAL VOC 2012, while training without COCO dataset.

研究の動機と目的

  • 膨張畳み込みや複雑なデコーダに依存せず、グローバルな文脈情報を活用してセマンティックセグメンテーションの改善を動機づける。
  • 高レベルの文脈を用いて低レベルの局在化を導く軽量デコーダを導入する。
  • 多尺度の文脈をピクセルレベルの注意機構と融合する Feature Pyramid Attention モジュールを設計・統合する。
  • グローバル文脈からの導きを受けて高解像度の予測を再構成する Global Attention Upsample モジュールを開発する。
  • COCO の前学習なしで VOC 2012 と Cityscapes で最先端の性能を示す。

提案手法

  • 3x3、5x5、7x7 の畳み込みとグローバルプーリング分岐を用いたピラミッド構造で多尺度の文脈を融合する Feature Pyramid Attention (FPA) を導入し、元の特徴とアテンションを掛け合わせて局在化を保持する。
  • 高レベルの特徴からのグローバル文脈を用いて低レベル特徴を重み付けし、段階的アップサンプリング前に重み付けするデコーダとして Global Attention Upsample (GAU) を提案する。
  • 拡張畳み込みを用いた ResNet-101(res5b の rate 2)をエンコーダのバックボーンとして使用する。
  • 7x7 の ResNet-101 レイヤーを 3x3 の畳み込みを 3 回に置換してパラメータを削減する。
  • 標準のクロスエントロピー損失、SGD、poly 学習率スケジュールで訓練し、データ拡張(反転とスケーリング)を適用する。
  • FPA が同じ出力ストライドの下で PSPNet および DeepLabv3 を上回ること、また GAU が FPA と組み合わせた場合に局在化を改善することを示す。

実験結果

リサーチクエスチョン

  • RQ1重い拡張畳み込みや複雑なデコーダを用いずに、ピクセルレベルの多尺度文脈を提供するピラミッド注意ベースのモジュールは実現できるか。
  • RQ2グローバルコンテキストに導かれたアップサンプリングデコーダは、最小限の計算コストで境界の局在化を改善するか。
  • RQ3FPA と GAU は、個別にはもちろん、組み合わせて標準ベンチマーク(VOC 2012 や Cityscapes など)に対してどのように性能に影響するか。
  • RQ4PAN アーキテクチャを用いて COCO 前学習なしで VOC 2012 と Cityscapes を訓練した場合の影響は何か。

主な発見

手法マルチスケール反転平均 IoU(%)ピクセル精度(%)
PAN79.3895.25
PANYes80.7795.65
PANYesYes81.1995.75
  • 平均プーリングと 3x3/5x5/7x7 カーネルに加えてグローバルプーリング分岐を備えた Feature Pyramid Attention は、設定に応じて VOC 2012 バリデーションで 78.37–78.37% の mean IoU に到達し、ベースラインとなる ResNet-101 より著しい改善をもたらす。
  • GAU と組み合わせた Global Attention Upsample は、VOC 2012 バリデーションの mean IoU を 72.60% から 77.84%(GAU+FPA の variante では最大 78.37%)へ改善。
  • COCO 前学習なしの PAN は VOC 2012 テストセットで 84.0% mean IoU を達成し、同等の設定下でいくつかの最先端手法(例:EncNet、PSPNet、DeepLabv3)を上回る。
  • Cityscapes では、PAN は coarse アノテーションなしでテストセットにおいて 78.6% mean IoU を達成し、いくつかの従来法をわずかに上回る。
  • COCO データを用いて訓練する方法と比較して(例:Global Convolution Network)、PAN は COCO 前学習なしで競争力の性能を発揮する。
  • アブレーション研究は、FPA の平均プーリングが最大プーリングより優れており、グローバルプーリング分岐とより大きなカーネル(3x3、5x5、7x7)の含有が性能を向上させることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。