Skip to main content
QUICK REVIEW

[論文レビュー] Towards Transparent AI Systems: Interpreting Visual Question Answering Models

Yash Goyal, Akrit Mohapatra|arXiv (Cornell University)|Aug 31, 2016
Multimodal Machine Learning Applications参考文献 15被引用数 43
ひとこと要約

この論文では、視覚的質問応答(VQA)モデルが予測を行う際に注目する画像領域や質問の語句を特定することで、VQAモデルの解釈をガイド付きバックプロパゲーションおよびオクルージョン技術を用いて行う。モデルに明示的な注目メカニズムがなくても、関連する画像領域や適切な質問語句に暗黙的に注目していることが判明し、重要度マップは人間の注目と中程度の相関(0.292)を示している。

ABSTRACT

Deep neural networks have shown striking progress and obtained state-of-the-art results in many AI research fields in the recent years. However, it is often unsatisfying to not know why they predict what they do. In this paper, we address the problem of interpreting Visual Question Answering (VQA) models. Specifically, we are interested in finding what part of the input (pixels in images or words in questions) the VQA model focuses on while answering the question. To tackle this problem, we use two visualization techniques -- guided backpropagation and occlusion -- to find important words in the question and important regions in the image. We then present qualitative and quantitative analyses of these importance maps. We found that even without explicit attention mechanisms, VQA models may sometimes be implicitly attending to relevant regions in the image, and often to appropriate words in the question.

研究の動機と目的

  • 深層学習モデルの透明性の欠如、特に視覚的質問応答(VQA)モデルがブラックボックスとして機能する点を是正する。
  • 予測を行う際にVQAモデルが入力(画像ピクセルや質問語句)のどの部分に依存しているかを特定する。
  • 明示的な注目メカニズムがなくても、VQAモデルが関連する画像領域および適切な質問語句に暗黙的に注目しているかどうかを調査する。
  • 可視化技術を通じてモデル行動の解釈可能性を高め、信頼性と信頼性を向上させるインサイトを提供する。

提案手法

  • 画像特徴および質問トークンに対して、ガイド付きバックプロパゲーションを適用し、勾配に基づく重要度マップを計算する。
  • 画像領域および質問語句を体系的にマスクすることでオクルージョンを行い、予測信頼度の変化を測定する。
  • 入力画像特徴に対してモデルの最終予測層に関する勾配を計算することで、画像重要度マップを生成する。
  • ワンホットエンコードされた質問トークンに対して勾配を計算することで、質問重要度マップを生成する。
  • 得られた重要度マップをVQAデータセットのヒトがアノテートした注目マップと比較し、一致度を評価する。
  • 品詞(POS)タグごとに重要な語の統計的分布を分析することで、言語的整合性を検証する。

実験結果

リサーチクエスチョン

  • RQ1明示的な注目メカニズムがなくても、VQAモデルはどの程度関連する画像領域に暗黙的に注目するか?
  • RQ2質問の中で予測に最も影響を与える語は何か?また、名詞やwh語のような言語的に意味のあるカテゴリーと一致するか?
  • RQ3モデルの画像重要度マップは、ヒトがアノテートした注目マップとどの程度相関するか?
  • RQ4オクルージョンによる予測の変化が、モデルの失敗を示唆するか?
  • RQ5POSタグ解析によって示されるように、重要度マップは質問の意味的整合性を反映しているか?

主な発見

  • ガイド付きバックプロパゲーションにより得られた画像重要度マップは、ヒトの注目マップとスピアマン順位相関係数0.292 ± 0.004を示し、人間の視覚的注目と中程度の一致があることを示している。
  • オクルージョンに基づく重要度マップは、ヒトの注目マップとスピアマン順位相関係数0.173 ± 0.004を示し、弱いが依然として正の一致があることを示している。
  • 質問におけるモデルが最も重視する語は、主にwh語、名詞、形容詞であり、注目の意味的整合性が示されている。
  • 語が最も重要である確率は、wh語が最も高く、次に形容詞、名詞の順に高いことが判明し、モデルの言語的推論能力を裏付けている。
  • オクルージョン中に予測された答えが変化した回数は、モデルの精度と相関しており、重要度マップがモデルの信頼性を示す可能性があることを示している。
  • 明示的な注目メカニズムがなくても、VQAモデルは関連する画像領域および意味的に重要な質問語句に暗黙的に注目している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。