[論文レビュー] Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding
Multimodal Compact Bilinear pooling (MCB) を導入し、視覚とテキスト特徴を効率的に融合することで VQA と視覚的 grounding を実現し、VQA データセットで最先端の結果を達成し、grounding の精度を向上させる。
Modeling textual or visual information with vector representations trained from large language or visual datasets has been successfully explored in recent years. However, tasks such as visual question answering require combining these vector representations with each other. Approaches to multimodal pooling include element-wise product or sum, as well as concatenation of the visual and textual representations. We hypothesize that these methods are not as expressive as an outer product of the visual and textual vectors. As the outer product is typically infeasible due to its high dimensionality, we instead propose utilizing Multimodal Compact Bilinear pooling (MCB) to efficiently and expressively combine multimodal features. We extensively evaluate MCB on the visual question answering and grounding tasks. We consistently show the benefit of MCB over ablations without MCB. For visual question answering, we present an architecture which uses MCB twice, once for predicting attention over spatial features and again to combine the attended representation with the question representation. This model outperforms the state-of-the-art on the Visual7W dataset and the VQA challenge.
研究の動機と目的
- 単純な結合や要素ごとの演算を超える、表現力のあるマルチモーダル融合を動機づける。
- 画像と言語間の外積相互作用を効率的に近似するために MCB を提案する。
- 注意機構を伴う VQA への MCB の適用と視覚 grounding への適用を、複数のデータセットで評価する。
- MCB ベースのモデルが強力なベースラインおよびアブレーションを上回ることを示す。
提案手法
- Count Sketch 投影と FFT ベースの畳み込みを用いて、外積相互作用を近似する Multimodal Compact Bilinear pooling (MCB) を定義する。
- MCB を用いて画像特徴(CNN)と質問埋め込み(LSTM)を 16k 次元の結合表現へ融合する。
- 各グリッド位置で言語-視覚ペアに MCB を適用して空間特徴にソフトアテンションを統合し、アテンションマップを予測する。
- 複数のグリミーズに対応する追加のアテンション分岐と、複数肢設定で回答エンコーディングのための追加の MCB を拡張する。
- 視覚 grounding において、GroundeR の連結を MCB に置換してフレーズと視覚提案を結合し、埋め込みは L2 正規化する。
実験結果
リサーチクエスチョン
- RQ1Multimodal Compact Bilinear pooling は VQA と grounding のための結合として、連結や要素ごとのプーリングより表現力の高い融合を提供するか?
- RQ2アテンション機構や複数の質問-回答設定と統合したとき、MCB は性能にどのような影響を与えるか?
- RQ3MCB 特徴の次元数 d の違いが VQA と grounding に及ぼす影響は何か?
- RQ4MCB が複数のデータセットにわたる VQA データセットと grounding ベンチマークで最先端の結果を改善できるか?
主な発見
- MCB は VQA と grounding のタスク全体で非バイリニア結合ベースラインを上回る。
- MCB を用いたソフトアテンションが最良の結果を示す。MCB 特徴上のアテンションは連結層上のアテンションを上回る。
- 16k 次元の MCB 特徴を用いると、オープンエンド VQA 設定で最高の精度を提供する。
- 最良の単一モデルは、2 つのアテンションを備えた MCB、Visual Genome データと GloVe を組み合わせたもので、VQA の open-ended および multiple-choice のベンチマークで他の手法を上回る。
- MCB ベースの grounding は Flickr30k Entities および ReferItGame のデータセットで最先端の精度を達成している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。