QUICK REVIEW

[論文レビュー] Hierarchical Question-Image Co-Attention for Visual Question Answering

Jiasen Lu, Jianwei Yang|arXiv (Cornell University)|May 31, 2016

Multimodal Machine Learning Applications参考文献 24被引用数 1,216

ひとこと要約

本論文は、画像領域と質問語を語彙レベル・句レベル・質問レベルで同時に参照する階層的コアテンションモデルを提案し、並行または交互のコアテンションを用いて視覚質問応答（VQA）性能を向上させる。

ABSTRACT

A number of recent works have proposed attention models for Visual Question Answering (VQA) that generate spatial maps highlighting image regions relevant to answering the question. In this paper, we argue that in addition to modeling "where to look" or visual attention, it is equally important to model "what words to listen to" or question attention. We present a novel co-attention model for VQA that jointly reasons about image and question attention. In addition, our model reasons about the question (and consequently the image via the co-attention mechanism) in a hierarchical fashion via a novel 1-dimensional convolution neural networks (CNN). Our model improves the state-of-the-art on the VQA dataset from 60.3% to 60.5%, and from 61.6% to 63.3% on the COCO-QA dataset. By using ResNet, the performance is further improved to 62.1% for VQA and 65.4% for COCO-QA.

研究の動機と目的

VQAにおいて、視覚的注意（どこを見るか）と質問注意（どの語を聞くべきか）の両方を動機づけ・解決する。
画像と質問の注意を共同で推論するコアテンション機構を提案する。
語彙レベル・句レベル・質問レベルの3段階階層的な質問表現と、新規な句レベルの畳み込みプーリング戦略を導入する。
並行および交互型のコアテンションバリアントを開発し、大規模VQAおよびCOCO-QAデータセットで検証する。

提案手法

画像領域Vと質問語Qの間の多モーダル親和性Cを定義する。
並行コアテンション（式3-5）または交互コアテンション（セクション3.3および式6）を用いて、語彙・句・質問レベルで共注意特徴を計算する。
1-D CNNを用いて、ユニグラム・バイグラム・トライグラムの窓にわたる句表現を最大プーリングで構築する（式1-2）。
語彙埋め込み、句レベルLSTM、質問レベルLSTMを用いて階層的な質問表現をエンコードする（Sec. 3.2）。
すべてのレベルからの参照された画像特徴と質問特徴を再帰的にMLPで融合し、最終的な答えを予測する（式7およびSec.3.4）。
VQAおよびCOCO-QAデータセットで評価し、最新手法と比較する；アブレーション分析（表1–3）を分析し、定性的な可視化（図4–6）を提供する。

実験結果

リサーチクエスチョン

RQ1画像と質問の協調的コアテンションは、視覚的注意のみを用いる場合を超えてVQAの性能を改善できるのか？
RQ2語彙・句・質問の3レベル階層的な質問表現を組み込むことは、注意された特徴と最終答えの質を向上させるか？
RQ3並行コアテンションと交互コテンション戦略は、性能と訓練の安定性の観点でどう比較されるか？
RQ4句レベルの畳み込みプーリングと非畳み込み句表現の影響はどうか？

主な発見

提案されたコアテンションモデルは、ResNet特徴量を用いた場合にVQAおよびCOCO-QAデータセットで最先端の結果を改善する。
並行コアテンションは一般にCOCO-QAで交互コアテンションより良い性能を示し、いずれも画像のみの注意を用いるベースラインを上回る。
語彙・句・質問の3レベル階層と各レベルでのコアテンションを組み合わせたモデルは、言語的注意を用いないモデルより改善をもたらし、特に最上位の質問レベルが性能に最も寄与する。
句レベルの畳み込みプーリングは有益なn-gramを適応的に選択し、固定サイズ窓と比較して句表現を強化する。
アブレーション研究は、いずれかの注意レベルを削除すると性能が低下することを示し、特に質問レベルの注意が最も大きな影響を及ぼすことから、答え予測器に近いことを示している。
定性的な可視化は、関連する画像領域と質問語句に整合する解釈可能なコアテンションマップを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。