QUICK REVIEW

[論文レビュー] Tell Me Where to Look: Guided Attention Inference Network

Kunpeng Li, Ziyan Wu|arXiv (Cornell University)|Feb 27, 2018

Advanced Neural Network Applications参考文献 36被引用数 76

ひとこと要約

論文は、注意マップを訓練可能にし、自己教師付きと任意の追加監督で弱教師付きセマンティックセグメンテーションを改善するエンドツーエンドのフレームワークGAINを紹介し、VOC 2012で最先端の結果を達成します。

ABSTRACT

Weakly supervised learning with only coarse labels can obtain visual explanations of deep neural network such as attention maps by back-propagating gradients. These attention maps are then available as priors for tasks such as object localization and semantic segmentation. In one common framework we address three shortcomings of previous approaches in modeling such attention maps: We (1) first time make attention maps an explicit and natural component of the end-to-end training, (2) provide self-guidance directly on these maps by exploring supervision form the network itself to improve them, and (3) seamlessly bridge the gap between using weak and extra supervision if available. Despite its simplicity, experiments on the semantic segmentation task demonstrate the effectiveness of our methods. We clearly surpass the state-of-the-art on Pascal VOC 2012 val. and test set. Besides, the proposed framework provides a way not only explaining the focus of the learner but also feeding back with direct guidance towards specific tasks. Under mild assumptions our method can also be understood as a plug-in to existing weakly supervised learners to improve their generalization performance.

研究の動機と目的

画像レベルのラベルのみで学習を動機づけ、局在化とセグメンテーションのための信頼できる注意マップを取得する。
注意マップをエンドツーエンド訓練の際に明示的かつ訓練可能な構成要素にする。
最も識別力の高い領域を超えて注意を拡張する自己指導を提供する。
弱教師付きと全監督を橋渡しする追加監督の統合を可能にする。
弱教師付き下でPASCAL VOC 2012のセグメンテーションにおける最先端性能を実証する。

提案手法

共有パラメータを持つ二系統ネットワーク：分類ストリーム（S_cl）と注意マイニングストリーム（S_am）。
注意マップは、Grad-CAMに似た機構を用いてオンラインで生成され、クラススコアの勾配とグローバル平均プール済みの重みを用いて A^c を形成する。
A^c から派生させたソフトマスク I*^c は S_am を制約し、最も識別力の高い領域を超えた探索を促す（Attention Mining Loss, L_am）。
自己指導損失 L_self = L_cl + α L_am は注意が対象物のより広範囲を覆うよう促す。α は重み付けパラメータ（α = 1 を使用）。
GAIN ext は外部監督 L_e（例：ピクセルレベルのマスク）を組み込み、注意マップをさらに適合させることでフレームワークを拡張し、L_ext = L_cl + α L_am + ω L_e（実験では ω = 10）を生む。
訓練中、注意マップは弱教師付きセグメンテーションフレームワーク（例：SEC）の事前情報として機能し、全監督なしで局在化手がかりを改善する。

実験結果

リサーチクエスチョン

RQ1弱教師付きタスクにおいて、注意マップをエンドツーエンド訓練の明示的で訓練可能な成分にすることはできるか？
RQ2注意マップに対する自己指導は、最も識別力の高い領域を超えたより完全な対象カバーを促進するか？
RQ3注意マップへの追加監督を統合することで、性能と訓練データのバイアスに対する頑健性をさらに向上させることができるか？
RQ4VOC 2012の弱教師付き下で、ガイド付き注意がセグメンテーション性能に及ぼす影響はどのようか？
RQ5既存の弱教師付き学習器へプラグインとしてGAINフレームワークを適用して一般化を高めることは可能か？

主な発見

手法	VOC検証 mIoU	VOCテスト mIoU
GAIN (ours)	55.3%	56.8%
GAIN ext (ours)	60.5%	62.1%

GAINは弱教師付きでVOC 2012の検証・テストで最先端のmIoUを達成（検証 55.3%、テスト 56.8% は GAIN）。
GAIN ext は小さなピクセルレベルの監督を用いると、mIoU が 60.5%（検証）および 62.1%（テスト）へさらに改善する。
ピクセルレベルのラベルなしでも、GAIN ベースの SEC はいくつかの弱教師付き手法より優れており、訓練可能な注意マップの利点を示している。
GAIN ext にピクセルレベルの監督を追加すると、類似設定下で競合手法に対して最大で 4.6–4.1 ポイントの性能向上をもたらす。
定性的な結果は、GAIN が注意をより完全な物体領域へ拡張し、セグメンテーションの事前情報を改善することを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。