QUICK REVIEW

[論文レビュー] Attention Branch Network: Learning of Attention Mechanism for Visual Explanation

Hiroshi Fukui, Tsubasa Hirakawa|arXiv (Cornell University)|Dec 25, 2018

Explainable Artificial Intelligence (XAI)参考文献 40被引用数 34

ひとこと要約

本稿では、応答に基づく視覚的説明モデルを専用の注目ブランチに統合することで、エンド・トゥ・エンド学習によって画像認識性能を向上させる、新しいCNNアーキテクチャ「Attention Branch Network (ABN)」を提案する。推論時に生成される注目マップを、解釈可能性と特徴の精錬の両方の目的に活用することで、ABNは画像分類、細分化認識、マルチタスク顔貌属性認識の各タスクで最先端の精度を達成した。

ABSTRACT

Visual explanation enables human to understand the decision making of Deep Convolutional Neural Network (CNN), but it is insufficient to contribute the performance improvement. In this paper, we focus on the attention map for visual explanation, which represents high response value as the important region in image recognition. This region significantly improves the performance of CNN by introducing an attention mechanism that focuses on a specific region in an image. In this work, we propose Attention Branch Network (ABN), which extends the top-down visual explanation model by introducing a branch structure with an attention mechanism. ABN can be applicable to several image recognition tasks by introducing a branch for attention mechanism and is trainable for the visual explanation and image recognition in end-to-end manner. We evaluate ABN on several image recognition tasks such as image classification, fine-grained recognition, and multiple facial attributes recognition. Experimental results show that ABN can outperform the accuracy of baseline models on these image recognition tasks while generating an attention map for visual explanation. Our code is available at https://github.com/machine-perception-robotics-group/attention_branch_network.

研究の動機と目的

深層CNNにおける解釈可能性の欠如と性能向上の不足を、学習プロセスに視覚的説明を統合することで解決すること。
既存の応答ベースの視覚的説明手法がアーキテクチャの変更を要し、モデルの精度を低下させるという制限を克服すること。
エンド・トゥ・エンド学習を通じて、認識精度の向上と注目ベースの視覚的説明の両方を同時に実現する統合フレームワークの開発。
注目メカニズムを、細分化認識やマルチタスク学習を含む多様なCNNアーキテクチャと画像認識タスクに一般化すること。
視覚的説明に用いられる注目マップが、モデル性能の向上にも効果的な注目メカニズムとして機能することを実証すること。

提案手法

ABNは、特徴抽出ブランチ、応答ベースの注目マップを生成するための注目ブランチ、分類用の知覚ブランチからなる三本のブランチ構造を採用する。
注目ブランチは、クラス活性化マッピング（CAM）にインspiredされた、バックプロパゲーションを伴わない特徴マップ応答に基づく視覚的説明メカニズムを用いる。
注目マップは要素ごとの乗算によって特徴マップに適用され、分類時に顕著な領域に注目できるようにする。
注目ブランチと知覚ブランチからの損失を統合してエンド・トゥ・エンドで学習させることで、精度と説明可能性の両方を最適化する。
本手法はモジュール型であり、VGG16、ResNet、ResNeXtなどのさまざまなバックボーンネットワークに、特徴抽出ブロックの直後に注目ブランチを挿入することで適用可能である。
注目メカニズムは、グローバル平均プーリングの直前の最終畳み込み層の応答から導出され、勾配なしで前方伝搬による注目マップ生成を可能にする。

実験結果

リサーチクエスチョン

RQ1応答ベースの視覚的説明手法を効果的に注目メカニズムに再利用することで、CNNの性能を向上させることができるか？
RQ2エンド・トゥ・エンドで学習可能なネットワークが、同時に画像認識精度の最適化と意味のある視覚的説明の提供を実現できるか？
RQ3視覚的説明から得られる注目マップを特徴学習プロセスに統合することで、多様な画像認識タスクにわたって一貫した性能向上が得られるか？
RQ4細分化認識とマルチタスク顔貌属性予測といった異なるタスクにおいて、注目マップの分布にどのような違いが生じるか？
RQ5提案された注目メカニズムは、異なるCNNアーキテクチャと認識ベンチマークに一般化可能か？

主な発見

VGG16とResNet101をバックボーンとして使用した場合、CompCarsデータセットにおける自動車モデル認識精度はそれぞれ4.9%および6.2%向上した。
CompCarsにおけるメーカー認識では、VGG16とResNet101を用いた場合、それぞれ2.0%および7.5%の精度向上を達成した。
CelebAデータセットでは、ABNが複数顔貌属性認識で平均91.07%の精度を達成し、ResNet101（90.69%）および他の最先端モデルを上回った。
ResNet101と比較して、ABNは40の顔貌属性タスクのうち27のタスクで性能向上を示し、特に『くっきりとした眉』や『ネックレスを着用』といった難易度の高い属性で顕著な向上を示した。
t-SNE可視化により、ABNの特徴マップが注目誘導による特徴学習のおかげで、車両のポーズや詳細な形状に基づいてより明確にクラスタリングされていることが確認された。
注目マップの可視化結果から、ABNが予測対象の属性と関連する意味的関連領域（例：目、口、髪）に注目していることが示され、注目メカニズムの解釈可能性が裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。