QUICK REVIEW

[論文レビュー] Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Answering

Yu Zhou, Jun Yu|arXiv (Cornell University)|Aug 4, 2017

Multimodal Machine Learning Applications参考文献 36被引用数 101

ひとこと要約

本論文は画像と質問の特徴を融合する Multi-modal Factorized Bilinear (MFB) pooling と共注意機構を提案し、VQAで最先端の結果を達成している。

ABSTRACT

Visual question answering (VQA) is challenging because it requires a simultaneous understanding of both the visual content of images and the textual content of questions. The approaches used to represent the images and questions in a fine-grained manner and questions and to fuse these multi-modal features play key roles in performance. Bilinear pooling based models have been shown to outperform traditional linear models for VQA, but their high-dimensional representations and high computational complexity may seriously limit their applicability in practice. For multi-modal feature fusion, here we develop a Multi-modal Factorized Bilinear (MFB) pooling approach to efficiently and effectively combine multi-modal features, which results in superior performance for VQA compared with other bilinear pooling approaches. For fine-grained image and question representation, we develop a co-attention mechanism using an end-to-end deep network architecture to jointly learn both the image and question attentions. Combining the proposed MFB approach with co-attention learning in a new network architecture provides a unified model for VQA. Our experimental results demonstrate that the single MFB with co-attention model achieves new state-of-the-art performance on the real-world VQA dataset. Code available at https://github.com/yuzcccc/mfb.

研究の動機と目的

より良い多モーダル特徴融合と細粒度の注意機構によってVQAを改善する動機付け。
画像と質問の特徴を融合する、効率的で表現力のあるバイリニア結合プーリング法を開発する。
画像と質問の注意を共同で学習する共注意メカニズムを組み込む。
バイリニアモデルが正規化技法を必要とすることを示す。
単一のモデルを用いて実世界のVQAデータセットで最先端の結果を達成する。

提案手法

低ランク因子分解を用いて画像と質問の特徴を融合する Multi-modal Factorized Bilinear (MFB) pooling を提案する。
バイリニア重みを U と V 行列に因子分解し、要素ごとの乗算後に和 pooling を適用する。
MFB 後にべき乗正規化と L2 正規化を適用して訓練を安定化させる。
エンドツーエンドネットワークで画像と質問の注意を共同で学習する共注意学習モジュールを導入する。
ResNet-152 画像エンコーダと2層のLSTM-質問エンコーダを用いて、回答分類のためのマルチモーダル融合特徴を生成する。
VQAデータセット上でOpen-EndedおよびMultiple-Choiceタスクで評価し、MCB/MLBのベースラインおよびアブレーションと比較する。

実験結果

リサーチクエスチョン

RQ1提案された MFB pooling は VQA における既存のバイリニア結合法（MCB、MLB）よりマルチモーダル融合を改善しますか？
RQ2べき乗正規化と L2 正規化を組み込むことで訓練の安定性と精度は向上しますか？
RQ3共注意学習は画像と質問の注意を共同で向上させ、VQA の性能を高めることができますか？
RQ4さまざまな設定（注意機構あり/なし、外部埋め込みあり、VGデータあり）における VQA データセットで、MFB ベースのアーキテクチャは最先端メソッドとどのように比較されますか？

主な発見

モデル	精度	モデルサイズ
MCB (d=16000)	59.8	63M
MLB (d=1000)	59.7	25M
MFB(k=1,o=5000)	60.4	51M
MFB(k=5,o=1000)	60.9	46M
MFB(k=10,o=500)	60.6	38M
MFB(k=5,o=200)	59.8	22M
MFB(k=5,o=500)	60.4	28M
MFB(k=5,o=2000)	60.7	62M
MFB(k=5,o=4000)	60.4	107M

MFB は MCB および MLB のベースラインを Open-Ended VQA の精度で上回る。
因子 k を 1 から 5 に増やすと性能が向上する；さらなる増加はリターンが減少し、k=10 付近で飽和する。
べき乗正規化、特に L2 正規化は性能と訓練安定性を大幅に改善する。
共注意（MFB+CoAtt）は単一の注意モデルよりさらなる精度向上をもたらす。
外部 GloVe 埋め込みと Visual Genome データを用いると、MFB+CoAtt+GloVe+VG は OE および MC タスクで単一モデルの最高性能を達成する；アンサンブルでさらに改善。
最先端と比較すると、MFB+CoAtt+GloVe+VG は多くの非アンサンブル手法に近づくか上回る；人間の性能は依然高い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。