Skip to main content
QUICK REVIEW

[論文レビュー] Self-Critical Reasoning for Robust Visual Question Answering

Jialin Wu, Raymond J. Mooney|arXiv (Cornell University)|May 24, 2019
Multimodal Machine Learning Applications参考文献 37被引用数 91
ひとこと要約

この論文は、最も影響力のある画像領域に過敏になって誤答を生むVQAの自己批判的トレーニング目的を導入し、人間またはQA由来の説明を用いて物体の重要性を導くことで、VQA-CPデータセットでの一般化性能を最先端まで改善している。

ABSTRACT

Visual Question Answering (VQA) deep-learning systems tend to capture superficial statistical correlations in the training data because of strong language priors and fail to generalize to test data with a significantly different question-answer (QA) distribution. To address this issue, we introduce a self-critical training objective that ensures that visual explanations of correct answers match the most influential image regions more than other competitive answer candidates. The influential regions are either determined from human visual/textual explanations or automatically from just significant words in the question and answer. We evaluate our approach on the VQA generalization task using the VQA-CP dataset, achieving a new state-of-the-art i.e., 49.5% using textual explanations and 48.5% using automatically annotated regions.

研究の動機と目的

  • VQAモデルが言語事前知識に過度にフィットし、QA分布の変化下で一般化が低下する問題を動機づける。
  • 誤答の影響されやすさを抑制する自己批判的トレーニング目的を提案する。
  • 人間の視覚/テキスト説明またはQA由来の物体集合を活用して影響力のある領域を特定する。
  • 人間の説明の有無に関係なくUpDnベースのモデルでVQA-CPにおける一般化の改善を示す。

提案手法

  • Base VQA system: Bottom-Up Top-Down (UpDn) architecture.
  • Identify an influential object set I per QA pair from visual explanations (VQA-HAT), textual explanations (VQA-X), or QA-based nouns.
  • Compute answer sensitivity to objects using a modified Grad-CAM (no ReLU, no feature-vector weighting).
  • Strengthen the most influential object via an influence-strengthening loss L_infl to ensure the correct answer is grounded on influential regions.
  • Introduce a self-critical loss L_crit that minimizes the sensitivity gap for competitive incorrect answers w.r.t. the most influential object v* (weighted by cosine distance of GloVe embeddings).
  • Training regimen: pre-train with L_vqa, fine-tune with L_infl, then jointly optimize L_vqa + λ_infl L_infl + λ_crit L_crit, using a bucket of top-5 competing answers; object set size is small (6) and proposals come from explanations or QA nouns.

実験結果

リサーチクエスチョン

  • RQ1自分批判的目的は、VQAにおける誤答の最も影響力のある画像領域への敏感さを低減できるか。
  • RQ2人間の(視覚/テキスト)説明またはQA由来の物体集合を活用することで、前提知識の変更(VQA-CP)に対する一般化が改善されるか。
  • RQ3提案手法は正答と誤答が影響力のある物体へ grounding される様子をデータセット間でどう変えるか。

主な発見

解説VQA-CP v2 テスト 全体VQA-CP v2 テスト はい/いいえVQA-CP v2 テスト 数値VQA-CP v2 テスト その他VQA v2 バリデーション 全体VQA v2 バリデーション はい/いいえVQA v2 バリデーション 数値VQA v2 バリデーション その他
GVQA [1]31.358.013.722.148.272.031.234.7
UpDn [2]39.742.711.946.163.581.242.155.7
UpDn+AttAlign [25]38.542.511.443.861.078.938.453.3
UpDn+AdvReg. [21]41.265.515.535.562.879.842.455.2
UpDn+SCR (ours) QA48.4770.4110.4247.2962.377.440.956.5
UpDn+SCR (ours) HAT49.1771.5510.7247.4962.278.941.454.3
UpDn+SCR (ours) VQA-X49.4572.3610.9348.0262.278.841.654.5
  • テキスト説明を用いた場合にVQA-CPで新たな最先端(49.5%)、視覚説明(VQA-HAT)での競争力ある結果(49.1%)、QA由来の物体での性能(48.5%)。
  • VQA-HATまたはVQA-Xの監督を用いると、従来手法(例:HINT)よりもVQA-CPで大幅に改善。
  • 自己批判的トレーニング後、偽の感度が大幅に低下(35.5%から約20%へ)、誤答の影響力のある領域依存を低減。
  • 影響強化と自己批判ロスは、さまざまなロス重みと物体集合サイズで頑健な利得をもたらす。
  • QAベースの影響物体提案は、人間提供提案と大きく重なる(VQA-Xで57.1%、VQA-HATで54.3%)ことを示し、QA由来の集合が意味のある領域を捉えていることを示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。