Skip to main content
QUICK REVIEW

[論文レビュー] Bilinear Attention Networks

Jin-Hwa Kim, Jae-Hyun Jun|arXiv (Cornell University)|May 21, 2018
Multimodal Machine Learning Applications参考文献 28被引用数 78
ひとこと要約

BAN は、低秩プーリングと残差注意を用いて、マルチチャネルのビジョン-言語入力上で双線形注意マップを学習し、VQA 2.0 および Flickr30k Entities で最先端の結果を達成します。

ABSTRACT

Attention networks in multimodal learning provide an efficient way to utilize given visual information selectively. However, the computational cost to learn attention distributions for every pair of multimodal input channels is prohibitively expensive. To solve this problem, co-attention builds two separate attention distributions for each modality neglecting the interaction between multimodal inputs. In this paper, we propose bilinear attention networks (BAN) that find bilinear attention distributions to utilize given vision-language information seamlessly. BAN considers bilinear interactions among two groups of input channels, while low-rank bilinear pooling extracts the joint representations for each pair of channels. Furthermore, we propose a variant of multimodal residual networks to exploit eight-attention maps of the BAN efficiently. We quantitatively and qualitatively evaluate our model on visual question answering (VQA 2.0) and Flickr30k Entities datasets, showing that BAN significantly outperforms previous methods and achieves new state-of-the-arts on both datasets.

研究の動機と目的

  • Vision と language の統合を co-attention を越えて改善する動機づけと、モダリティチャネル間の相互作用をモデル化すること。
  • 二つの入力チャネルグループを同時に注意する双線形注意機構を提案すること。
  • 複数の双線形注意マップを効率的に活用する残差学習スキームを導入すること。
  • VQA 2.0 と Flickr30k Entities で BAN を評価し、最先端の性能とグラウンディング能力を確立すること。

提案手法

  • 二つの多チャネル入力 X and Y の間に双線形注意マップ A を定義し、低秩双線形プーリングを介して結合表現を計算する。
  • A を、Hadamard 積と低秩射影(U, V, p)を用いた双線形スコアの softmax でパラメータ化する。
  • 共有 U, V を用いて distinct な p_g を学習することで、複数の glimpse に拡張する。
  • 特徴結合を連結せず複数の BAN マップを統合する multimodal 残差ネットワークの変種を適用し、8-glimpse 学習を可能にする。
  • VQA と grounding タスクの分類器として 2 層の MLP と BCE 損失を用いた、特徴相互作用と注意の両方で ReLU 非線形性を適用する。

実験結果

リサーチクエスチョン

  • RQ1双線形注意は、co-attention や単一注意よりも視覚チャネルと言語チャネルの相互作用をより効果的に捉えられるのか。
  • RQ2複数の双線形注意マップの残差統合は精度と効率を改善するのか。
  • RQ3BAN は VQA 2.0 および Flickr30k Entities で正確さとグラウンディング速度の点でどう機能するのか。
  • RQ4 glimpses の数が性能とロバスト性に与える影響は何か。

主な発見

  • 双線形注意マップを用いた BAN は、VQA 2.0 の検証データで単一注意および co-attention を上回る。
  • glimpse を増やすと VQA 検証スコアが向上する(BAN-1: 65.36、BAN-2: 65.61、BAN-4: 65.81、BAN-8: 66.00、BAN-12: 66.04)。
  • 複数の BAN マップの注意の残差学習は、合計融合や連結による融合よりも良い結果をもたらす。
  • Flickr30k Entities では BAN が 69.69% Recall@1 を達成し、事前の手法を上回り追加特徴なし、推論速度は 25.37% 改善(0.67 ms/entity)。
  • BAN は視覚的グラウンディングで競争力を示し、8 見える視点でもパラメータ効率を維持する。
  • モデルは VQA 2.0 および Flickr30k Entities の両方のベンチマークで最先端の結果を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。