QUICK REVIEW

[論文レビュー] Deep Modular Co-Attention Networks for Visual Question Answering

Yu Zhou, Jun Yu|arXiv (Cornell University)|Jun 25, 2019

Multimodal Machine Learning Applications参考文献 33被引用数 99

ひとこと要約

MCAN は自己注意とガイド付き注意を深くモジュラー化した共注意層を導入し、質問と画像の両方で統合し、深いエンコーダ-デコーダ設計または積層設計でVQA-v2の最先端結果を達成します。

ABSTRACT

Visual Question Answering (VQA) requires a fine-grained and simultaneous understanding of both the visual content of images and the textual content of questions. Therefore, designing an effective `co-attention' model to associate key words in questions with key objects in images is central to VQA performance. So far, most successful attempts at co-attention learning have been achieved by using shallow models, and deep co-attention models show little improvement over their shallow counterparts. In this paper, we propose a deep Modular Co-Attention Network (MCAN) that consists of Modular Co-Attention (MCA) layers cascaded in depth. Each MCA layer models the self-attention of questions and images, as well as the guided-attention of images jointly using a modular composition of two basic attention units. We quantitatively and qualitatively evaluate MCAN on the benchmark VQA-v2 dataset and conduct extensive ablation studies to explore the reasons behind MCAN's effectiveness. Experimental results demonstrate that MCAN significantly outperforms the previous state-of-the-art. Our best single model delivers 70.63$\%$ overall accuracy on the test-dev set. Code is available at https://github.com/MILVLG/mcan-vqa.

研究の動機と目的

VQA のための画像領域と言葉の粒度の高いマルチモーダル理解の向上を目指す。
モジュラー共注意層を積み重ねる深いアーキテクチャを設計し、横断モダリティ表現を徐々に洗練させる。
自己注意が両モダリティにおける利点と、視覚的推論・カウ counting タスクにおける深い共注意の役割を調査する。

提案手法

Self-Attention (SA) と Guided-Attention (GA) ユニットを組み合わせた Modular Co-Attention (MCA) 層を導入する。
2つの基本的な注意ユニットをモデル化する：SA はモーダル内の（語句間または領域間）相互作用、GA はモーダル間の（質問語と画像領域）相互作用。
複数の MCA 層をカスケードさせて、スタックとエンコーダ-デコーダのバリアントを持つ深い MCAN を形成する。
画像は Faster R-CNN からのボトムアップ領域特徴で、質問は語句埋め込み（GloVe）とそれに続く LSTM によって質問特徴行列を得る。
SA と GA ユニット内で残差接続と層正規化を用いた多頭スケールド・ドット積注意を使用する。
L MCA 層（L ∈ {1,2,4,6,8}）を積み重ねまたはエンコーダ-デコーダ戦略により深い共注意学習を実施し、出力を二層の注意的還元と線形の多模態融合に入力して BCE 3,129-クラス分類子で回答を予測する。

Figure 1 : Accuracies vs . co-attention depth on VQA-v2 val split. We list most of the state-of-the-art approaches with (deep) co-attention models. Except for DCN [ 24 ] which uses the convolutional visual features and thus leads to inferior performance, all the compared methods ( i.e. , MCAN, BAN [

実験結果

リサーチクエスチョン

RQ1深い MCA 層のカスケード化は浅い共注意モデルより VQA の性能を向上させるか？
RQ2画像モダリティと質問モダリティの自己注意が VQA の精度、特に物体数え上げにどのような影響を与えるか？
RQ3スタック型とエンコーダ-デコーダ型の深い共注意モデルは性能と最適化安定性の点でどう比較されるか？
RQ4提案された MCAN 融合設計と分類器設計は VQA-v2 ベンチマークでどの程度効果的か？
RQ5異なる質問表現（GloVe、ランダム、LSTM）が結果にどの程度影響するか？

主な発見

深い MCA 層を持つ MCAN は VQA-v2 で従来の共注意モデルを大きく上回る。
質問と画像領域の両方に対する自己注意は性能を向上させ、SA(Y)-SGA(X,Y) が強い結果をもたらす。
エンコーダ-デコーダ型の深い共注意は深さが増すにつれてスタック型を一般に上回り、層状表現の効果的な利用によるため。
最良の単一モデル（MCAN ed-6）は VQA-v2 の test-dev で総合精度 70.63%、test-std で 70.90% を達成し、カウント能力も競争力がある。
MCAN は BAN および MFH と比較してパラメータ効率が高く（例: MCAN ed-2 は約 2700 万パラメータ程度）、より高い精度を実現している。
可視化は学習された注意がキーワードと関連する画像領域に一致することを示し、画像自己注意は物体領域に焦点を当てることでカウントを改善することを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。