[論文レビュー] Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Answering
本論文は画像と質問の特徴を融合する Multi-modal Factorized Bilinear (MFB) pooling と共注意機構を提案し、VQAで最先端の結果を達成している。
Visual question answering (VQA) is challenging because it requires a simultaneous understanding of both the visual content of images and the textual content of questions. The approaches used to represent the images and questions in a fine-grained manner and questions and to fuse these multi-modal features play key roles in performance. Bilinear pooling based models have been shown to outperform traditional linear models for VQA, but their high-dimensional representations and high computational complexity may seriously limit their applicability in practice. For multi-modal feature fusion, here we develop a Multi-modal Factorized Bilinear (MFB) pooling approach to efficiently and effectively combine multi-modal features, which results in superior performance for VQA compared with other bilinear pooling approaches. For fine-grained image and question representation, we develop a co-attention mechanism using an end-to-end deep network architecture to jointly learn both the image and question attentions. Combining the proposed MFB approach with co-attention learning in a new network architecture provides a unified model for VQA. Our experimental results demonstrate that the single MFB with co-attention model achieves new state-of-the-art performance on the real-world VQA dataset. Code available at https://github.com/yuzcccc/mfb.
研究の動機と目的
- より良い多モーダル特徴融合と細粒度の注意機構によってVQAを改善する動機付け。
- 画像と質問の特徴を融合する、効率的で表現力のあるバイリニア結合プーリング法を開発する。
- 画像と質問の注意を共同で学習する共注意メカニズムを組み込む。
- バイリニアモデルが正規化技法を必要とすることを示す。
- 単一のモデルを用いて実世界のVQAデータセットで最先端の結果を達成する。
提案手法
- 低ランク因子分解を用いて画像と質問の特徴を融合する Multi-modal Factorized Bilinear (MFB) pooling を提案する。
- バイリニア重みを U と V 行列に因子分解し、要素ごとの乗算後に和 pooling を適用する。
- MFB 後にべき乗正規化と L2 正規化を適用して訓練を安定化させる。
- エンドツーエンドネットワークで画像と質問の注意を共同で学習する共注意学習モジュールを導入する。
- ResNet-152 画像エンコーダと2層のLSTM-質問エンコーダを用いて、回答分類のためのマルチモーダル融合特徴を生成する。
- VQAデータセット上でOpen-EndedおよびMultiple-Choiceタスクで評価し、MCB/MLBのベースラインおよびアブレーションと比較する。
実験結果
リサーチクエスチョン
- RQ1提案された MFB pooling は VQA における既存のバイリニア結合法(MCB、MLB)よりマルチモーダル融合を改善しますか?
- RQ2べき乗正規化と L2 正規化を組み込むことで訓練の安定性と精度は向上しますか?
- RQ3共注意学習は画像と質問の注意を共同で向上させ、VQA の性能を高めることができますか?
- RQ4さまざまな設定(注意機構あり/なし、外部埋め込みあり、VGデータあり)における VQA データセットで、MFB ベースのアーキテクチャは最先端メソッドとどのように比較されますか?
主な発見
| モデル | 精度 | モデルサイズ |
|---|---|---|
| MCB (d=16000) | 59.8 | 63M |
| MLB (d=1000) | 59.7 | 25M |
| MFB(k=1,o=5000) | 60.4 | 51M |
| MFB(k=5,o=1000) | 60.9 | 46M |
| MFB(k=10,o=500) | 60.6 | 38M |
| MFB(k=5,o=200) | 59.8 | 22M |
| MFB(k=5,o=500) | 60.4 | 28M |
| MFB(k=5,o=2000) | 60.7 | 62M |
| MFB(k=5,o=4000) | 60.4 | 107M |
- MFB は MCB および MLB のベースラインを Open-Ended VQA の精度で上回る。
- 因子 k を 1 から 5 に増やすと性能が向上する;さらなる増加はリターンが減少し、k=10 付近で飽和する。
- べき乗正規化、特に L2 正規化は性能と訓練安定性を大幅に改善する。
- 共注意(MFB+CoAtt)は単一の注意モデルよりさらなる精度向上をもたらす。
- 外部 GloVe 埋め込みと Visual Genome データを用いると、MFB+CoAtt+GloVe+VG は OE および MC タスクで単一モデルの最高性能を達成する;アンサンブルでさらに改善。
- 最先端と比較すると、MFB+CoAtt+GloVe+VG は多くの非アンサンブル手法に近づくか上回る;人間の性能は依然高い。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。