Skip to main content
QUICK REVIEW

[論文レビュー] Attention to Scale: Scale-aware Semantic Image Segmentation

Liang-Chieh Chen, Yi Yang|arXiv (Cornell University)|Nov 10, 2015
Advanced Neural Network Applications参考文献 5被引用数 134
ひとこと要約

この論文は、共有の完全畳み込みネットワークから得られるマルチスケール特徴量に対して動的重みを付与するスケールに敏感なアテンションメカニズムを提案し、平均プーリングおよびマックスプーリングのベースラインを上回る性能を達成する。本手法は各スケールで追加の監視を統合して同時に学習し、PASCAL-Person-Part、PASCAL VOC 2012、MS-COCOで最先端の結果を達成するとともに、スケール別特徴量の重要度を診断的可視化を可能にする。

ABSTRACT

Incorporating multi-scale features in fully convolutional neural networks (FCNs) has been a key element to achieving state-of-the-art performance on semantic image segmentation. One common way to extract multi-scale features is to feed multiple resized input images to a shared deep network and then merge the resulting features for pixelwise classification. In this work, we propose an attention mechanism that learns to softly weight the multi-scale features at each pixel location. We adapt a state-of-the-art semantic image segmentation model, which we jointly train with multi-scale input images and the attention model. The proposed attention model not only outperforms average- and max-pooling, but allows us to diagnostically visualize the importance of features at different positions and scales. Moreover, we show that adding extra supervision to the output at each scale is essential to achieving excellent performance when merging multi-scale features. We demonstrate the effectiveness of our model with extensive experiments on three challenging datasets, including PASCAL-Person-Part, PASCAL VOC 2012 and a subset of MS-COCO 2014.

研究の動機と目的

  • 深層学習を用いて、さまざまなスケールのオブジェクトを扱うセマンティック画像セグメンテーションの課題に取り組む。
  • すべてのスケールを均等に扱う固定のマージ戦略(平均プーリングやマックスプーリング)の限界を克服する。
  • オブジェクトのスケールに応じて特徴量の重みを適応的・動的に学習することで、セグメンテーションの精度を向上させる。
  • 各空間的位置における予測に最も寄与するスケールを特定する診断的可視化を可能にする。
  • マルチスケール統合における最適なパフォーマンスを達成するため、各スケールで追加の監視が必要であることを示す。

提案手法

  • 共有ネットワークアーキテクチャを用いて、DeepLab-LargeFOVモデルをマルチスケール入力処理用のバックボーンとして適応する。
  • 各スケールに対して空間的に変化する重みマップを学習するソフトアテンションメカニズムを適用し、特徴量応答を動的に変調する。
  • アテンション重みを用いてスコアマップの重み付き和を計算することでマルチスケール特徴量を統合し、固定プーリング操作を置き換える。
  • 各スケールのネットワーク出力に追加の監視を導入し、特徴量学習と統合を向上させる。
  • マルチスケール入力とスケール固有の監視を用いて、アテンションモジュールとセグメンテーションネットワークをエンドツーエンドで同時に学習する。
  • 局所的コンテキストとオブジェクトサイズに基づいて、スケール固有の特徴量に注目する学習可能なアテンションモジュールを採用する。

実験結果

リサーチクエスチョン

  • RQ1学習可能なアテンションメカニズムは、固定プーリング戦略を上回るマルチスケール特徴量統合を実現できるか?
  • RQ2アテンションメカニズムは、オブジェクトサイズに応じて、異なるスケールからの特徴量にどのように重要度を割り当てるか?
  • RQ3各スケールに追加の監視を追加した場合、セグメンテーションパフォーマンスにどのような影響を与えるか?
  • RQ4アテンションメカニズムは、予測に最も寄与するスケールを意味のある診断的インサイトとして提供できるか?
  • RQ5提案手法は、オブジェクトスケール分布が異なる多様なデータセットに一般化可能か?

主な発見

  • PASCAL VOC 2012でスケール{1, 0.5}を用いた場合、提案アーキテクチャは35.41%の平均IoUを達成し、マックスプーリング(34.70%)および平均プーリング(35.14%)を上回る。
  • MS-COCO 2014のサブセットでは、スケール{1, 0.75, 0.5}を用いた場合、35.78%の平均IoUを達成し、DeepLab-LargeFOVベースライン(31.22%)に対して4.6%の向上を示した。
  • MS-COCOの人物クラスでは、アテンションモデルが72.72%のIoUを達成し、平均プーリングより1.02%、マックスプーリングより2.06%の向上を示した。
  • アテンションメカニズムにより診断的可視化が可能となり、小さなオブジェクトは細かいスケール特徴量からの高いアテンション重みを示し、大きなオブジェクトは粗いスケールでよりよく捉えられていることが明らかになった。
  • 各スケールでの追加監視がパフォーマンスに不可欠であることがアブレーションにより示され、省略すると顕著な低下が生じた。
  • 本手法はデータセット間で一般化可能であり、PASCAL-Person-Part、PASCAL VOC 2012、MS-COCOで一貫した向上を示し、スケールのばらつきやクラス不均衡に対して高いロバスト性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。