Skip to main content
QUICK REVIEW

[論文レビュー] Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Answering

Yu Zhou, Jun Yu|arXiv (Cornell University)|Aug 4, 2017
Multimodal Machine Learning Applications参考文献 36被引用数 101
ひとこと要約

本論文は画像と質問の特徴を融合する Multi-modal Factorized Bilinear (MFB) pooling と共注意機構を提案し、VQAで最先端の結果を達成している。

ABSTRACT

Visual question answering (VQA) is challenging because it requires a simultaneous understanding of both the visual content of images and the textual content of questions. The approaches used to represent the images and questions in a fine-grained manner and questions and to fuse these multi-modal features play key roles in performance. Bilinear pooling based models have been shown to outperform traditional linear models for VQA, but their high-dimensional representations and high computational complexity may seriously limit their applicability in practice. For multi-modal feature fusion, here we develop a Multi-modal Factorized Bilinear (MFB) pooling approach to efficiently and effectively combine multi-modal features, which results in superior performance for VQA compared with other bilinear pooling approaches. For fine-grained image and question representation, we develop a co-attention mechanism using an end-to-end deep network architecture to jointly learn both the image and question attentions. Combining the proposed MFB approach with co-attention learning in a new network architecture provides a unified model for VQA. Our experimental results demonstrate that the single MFB with co-attention model achieves new state-of-the-art performance on the real-world VQA dataset. Code available at https://github.com/yuzcccc/mfb.

研究の動機と目的

  • より良い多モーダル特徴融合と細粒度の注意機構によってVQAを改善する動機付け。
  • 画像と質問の特徴を融合する、効率的で表現力のあるバイリニア結合プーリング法を開発する。
  • 画像と質問の注意を共同で学習する共注意メカニズムを組み込む。
  • バイリニアモデルが正規化技法を必要とすることを示す。
  • 単一のモデルを用いて実世界のVQAデータセットで最先端の結果を達成する。

提案手法

  • 低ランク因子分解を用いて画像と質問の特徴を融合する Multi-modal Factorized Bilinear (MFB) pooling を提案する。
  • バイリニア重みを U と V 行列に因子分解し、要素ごとの乗算後に和 pooling を適用する。
  • MFB 後にべき乗正規化と L2 正規化を適用して訓練を安定化させる。
  • エンドツーエンドネットワークで画像と質問の注意を共同で学習する共注意学習モジュールを導入する。
  • ResNet-152 画像エンコーダと2層のLSTM-質問エンコーダを用いて、回答分類のためのマルチモーダル融合特徴を生成する。
  • VQAデータセット上でOpen-EndedおよびMultiple-Choiceタスクで評価し、MCB/MLBのベースラインおよびアブレーションと比較する。

実験結果

リサーチクエスチョン

  • RQ1提案された MFB pooling は VQA における既存のバイリニア結合法(MCB、MLB)よりマルチモーダル融合を改善しますか?
  • RQ2べき乗正規化と L2 正規化を組み込むことで訓練の安定性と精度は向上しますか?
  • RQ3共注意学習は画像と質問の注意を共同で向上させ、VQA の性能を高めることができますか?
  • RQ4さまざまな設定(注意機構あり/なし、外部埋め込みあり、VGデータあり)における VQA データセットで、MFB ベースのアーキテクチャは最先端メソッドとどのように比較されますか?

主な発見

モデル精度モデルサイズ
MCB (d=16000)59.863M
MLB (d=1000)59.725M
MFB(k=1,o=5000)60.451M
MFB(k=5,o=1000)60.946M
MFB(k=10,o=500)60.638M
MFB(k=5,o=200)59.822M
MFB(k=5,o=500)60.428M
MFB(k=5,o=2000)60.762M
MFB(k=5,o=4000)60.4107M
  • MFB は MCB および MLB のベースラインを Open-Ended VQA の精度で上回る。
  • 因子 k を 1 から 5 に増やすと性能が向上する;さらなる増加はリターンが減少し、k=10 付近で飽和する。
  • べき乗正規化、特に L2 正規化は性能と訓練安定性を大幅に改善する。
  • 共注意(MFB+CoAtt)は単一の注意モデルよりさらなる精度向上をもたらす。
  • 外部 GloVe 埋め込みと Visual Genome データを用いると、MFB+CoAtt+GloVe+VG は OE および MC タスクで単一モデルの最高性能を達成する;アンサンブルでさらに改善。
  • 最先端と比較すると、MFB+CoAtt+GloVe+VG は多くの非アンサンブル手法に近づくか上回る;人間の性能は依然高い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。