QUICK REVIEW

[論文レビュー] ABC-CNN: An Attention Based Convolutional Neural Network for Visual Question Answering

Kan Chen, Jiang Wang|arXiv (Cornell University)|Nov 18, 2015

Multimodal Machine Learning Applications参考文献 30被引用数 278

ひとこと要約

本稿では、質問に従った注目メカニズムを用いて関連する画像領域に動的に注目する、注目ベースの畳み込みニューラルネットワークであるABC-CNNを提案する。質問の埋め込みから導出される設定可能な畳み込みカーネルを用いることで、空間的な注目マップを生成し、特徴表現を向上させる。ABC-CNNは、Toronto COCO-QA、DAQUAR、VQAのデータセットにおいて、顕著な精度向上を達成し、最先端の性能を発揮する。

ABSTRACT

We propose a novel attention based deep learning architecture for visual question answering task (VQA). Given an image and an image related natural language question, VQA generates the natural language answer for the question. Generating the correct answers requires the model's attention to focus on the regions corresponding to the question, because different questions inquire about the attributes of different image regions. We introduce an attention based configurable convolutional neural network (ABC-CNN) to learn such question-guided attention. ABC-CNN determines an attention map for an image-question pair by convolving the image feature map with configurable convolutional kernels derived from the question's semantics. We evaluate the ABC-CNN architecture on three benchmark VQA datasets: Toronto COCO-QA, DAQUAR, and VQA dataset. ABC-CNN model achieves significant improvements over state-of-the-art methods on these datasets. The question-guided attention generated by ABC-CNN is also shown to reflect the regions that are highly relevant to the questions.

研究の動機と目的

特定の質問に関連する画像領域に注目できるようにすることで、VQAにおける視覚的・言語的理解の一致を改善すること。
手動でアノテートされた注目領域を必要とせずに、質問に従った注目メカニズムを学習する仕組みを開発すること。
適応的で注目ベースの特徴重み付けを用いて、視覚的特徴と質問の意味を統合することで、VQAの精度を向上させること。
質問の意図と一致する注目マップを生成することで、VQAモデルの解釈可能性を提供すること。

提案手法

ABC-CNNは、画像領域間の空間的関係を保持するように、空間的視覚特徴マップを抽出するCNNを用いる。
長短期記憶（LSTM）ネットワークが、入力された質問を濃縮された意味的埋め込みに符号化する。
質問埋め込みを視覚空間に投影することで、質問に特化した設定可能な畳み込みカーネル（CCK）が生成される。
CCKが視覚特徴マップ上で設定可能な畳み込みを実行し、質問に従った注目マップ（QAM）を生成する。
QAMは視覚的特徴に空間的重みを付与し、ノイズをフィルタリングし、回答生成に適した文脈的関連領域を強調する。
最終的な回答は、注目された視覚的特徴と質問埋め込みを用いた多クラス分類器によって生成され、人為的アノテーションのないエンドツーエンドの学習が可能である。

実験結果

リサーチクエスチョン

RQ1ディープラーニングモデルは、与えられた質問に関連する意味的関連領域を自動的に注目できるか？
RQ2グローバル特徴プーリングや固定注目メカニズムと比較して、質問に従った注目メカニズムはVQAの精度をどのように向上させるか？
RQ3生成された注目マップは、人間がアノテートしたまたは直感的な注目領域とどの程度一致するか？
RQ4設定可能な畳み込みメカニズムは、質問からの意味的意味を視覚的特徴の空間的注目に効果的に伝えることができるか？

主な発見

ABC-CNNは、Toronto COCO-QAデータセットでテスト精度0.6844を達成し、すべてのベースラインモデルを上回り、アンサンブルモデルよりも0.3%高い性能を示した。
DAQUAR-reducedデータセットでは、ABC-CNNは0.4276の精度を達成し、次に良い単一モデル（LSTM）の0.3273を顕著に上回った。
VQAデータセットでは、ABC-CNNは1000個の頻出回答を使用して0.4838の精度を達成し、前回の最先端単一モデルを0.1259上回った。
アブレーションスタディの結果、注目を除去すると精度が1.34%低下し、質問に従った注目の重要性が確認された。
可視化により、注目マップが質問の意図に関連する領域（例：異なる例でコートや傘）に一貫して注目していることが確認された。
完全畳み込み型バージョン（ATT-SEG）は推論速度を向上させ、わずかに性能を向上させた。ATT-VGG-SEGモデルは、全体として最高の結果を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。