QUICK REVIEW

[論文レビュー] Attentive Explanations: Justifying Decisions and Pointing to the Evidence

Dong Huk Park, Lisa Anne Hendricks|arXiv (Cornell University)|Dec 14, 2016

Multimodal Machine Learning Applications参考文献 41被引用数 55

ひとこと要約

本論文では、視覚的意思決定のための自然言語的根拠を同時に生成するとともに、その説明を視覚的に根拠づけるための注目マップを出力する、マルチモーダルディープラーニングフレームワークであるPointing and Justification-based Explanation (PJ-X)モデルを提案する。このモデルは、視覚的質問応答（VQA-X）と行動認識（ACT-X）の2つの新しい人間アノテート済みデータセットを用いて訓練され、根拠の質と根拠の指差し行動の両面でベースラインを上回り、モデルが人間と同様の根拠づけられた説明を生成できることを示している。

ABSTRACT

Deep models are the defacto standard in visual decision models due to their impressive performance on a wide array of visual tasks. However, they are frequently seen as opaque and are unable to explain their decisions. In contrast, humans can justify their decisions with natural language and point to the evidence in the visual world which led to their decisions. We postulate that deep models can do this as well and propose our Pointing and Justification (PJ-X) model which can justify its decision with a sentence and point to the evidence by introspecting its decision and explanation process using an attention mechanism. Unfortunately there is no dataset available with reference explanations for visual decision making. We thus collect two datasets in two domains where it is interesting and challenging to explain decisions. First, we extend the visual question answering task to not only provide an answer but also a natural language explanation for the answer. Second, we focus on explaining human activities which is traditionally more challenging than object classification. We extensively evaluate our PJ-X model, both on the justification and pointing tasks, by comparing it to prior models and ablations using both automatic and human evaluations.

研究の動機と目的

人間が推論を説明するのと同様に、視覚的意思決定のための自然言語的根拠を生成するディープラーニングモデルを開発すること。
意思決定と根拠提示の両方において関連する画像領域を強調する注目マップを学習することで、モデルがその説明を視覚的に根拠づけること。
視覚的推論タスクにおける人間アノテート済みのテキスト的根拠と視覚的証拠を備えたデータセットの不足に対処すること。
モデルが正確な根拠と意味のある指差し行動を生成する能力を評価し、ディープラーニング視覚モデルの解釈可能性を向上させること。
モデルが直感的で人間が理解可能な説明を生成でき、同時に内部の注目メカニズムを反映していることを実証すること。

提案手法

PJ-Xモデルは二重注目メカニズムを採用しており、VQA-ATT（意思決定用）とEXP-ATT（根拠生成用）が別々に動作し、予測と説明の際の視覚的焦点を別々に制御できる。
人間アノテートデータからのテキスト的根拠（説明）を用いてエンドツーエンドで訓練されることで、言語と視覚的証拠の間の対応を学習できる。
テキスト的根拠を特定の画像領域に根拠づけるために、新しい説明用注目メカニズムが導入され、説明が視覚的に裏付けられていることを保証する。
本フレームワークは、視覚的質問応答（VQA）と細分化された人間の行動認識という2つのタスクに適用され、クラウドソーシングを用いて別個のデータセットが収集された。
自動評価指標と人間評価を併用してモデルを評価し、強力なベースラインおよびアブレーションを比較することで、注目メカニズムと根拠学習の貢献を明確に分離する。
内省的（意思決定プロセスを示す）と根拠に基づく（支援証拠を示す）の2つの説明スタイルをサポートし、解釈可能性とユーザーフレンドリーさを両立する。

実験結果

リサーチクエスチョン

RQ1ディープラーニングモデルは、視覚的証拠に根拠づけられた正確な自然言語的根拠を、視覚的意思決定のために出力できるか？
RQ2モデルは、意思決定の際と根拠提示の際とで異なる画像領域に注目できるよう学習できるか？これは人間の推論様式を反映しているか？
RQ3訓練中に人間アノテート済みのテキスト的根拠を組み込むことで、生成された説明の質と指差し行動の質が向上するか？
RQ4モデルの説明は、視覚的誤解による誤分類といった失敗モードを特定するのをどのように支援するか？
RQ5モデルは、エンドユーザーにとって解釈可能であり、かつ内部の注目パターンを反映した説明を生成できるか？

主な発見

PJ-Xモデルは、人間評価により確認されたように、文脈的に適切で視覚的証拠と整合する高品質なテキスト的根拠を生成する。
意思決定用（VQA-ATT）と根拠生成用（EXP-ATT）の別々の注目マップを生成しており、モデルが両タスクで同じ視覚的手がかりに依存していないことを示している。
モデルの説明は、赤信号を緑信号と誤認するといった予測の失敗の理由を頻繁に明らかにしていることから、視覚的手がかりに対するモデルの認識があることが示されている。
VQA-Xデータセットでは、モデルのVQA性能はMCB（VQA 2016コンテスト優勝モデル）をわずかに上回り、同時に説明機能を備えている。
ACT-Xデータセットでは、モデルは細分化された行動（例：BMX vs. レーシング自転車）を正しく予測し、画像の文脈と一致する説明を生成している。
アブレーションスタディの結果、テキスト的根拠の使用と二重注目メカニズムの両方が、説明の質と根拠の正確性を顕著に向上させていることが分かった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。