QUICK REVIEW

[論文レビュー] MUREL: Multimodal Relational Reasoning for Visual Question Answering

Rémi Cadène, Hedi Ben-younes|HAL (Le Centre pour la Communication Scientifique Directe)|Feb 25, 2019

Multimodal Machine Learning Applications参考文献 40被引用数 24

ひとこと要約

MURELは、視覚的質問応答（VQA）のためのマルチモーダル関係的推論ネットワークを導入し、標準的なアテンション機構を置き換えるために学習可能なMuRelセルを採用することで、画像領域と質問表現の間の豊かな対比較的相互作用をモデル化する。これらの関係的特徴を繰り返し精錬することで、MURELはVQA 2.0、VQA-CP v2、TDIUCで最先端の性能を達成し、アテンションベースのモデルを上回り、言語的バイアスに対して頑健であることを示している。

ABSTRACT

Multimodal attentional networks are currently state-of-the-art models for Visual Question Answering (VQA) tasks involving real images. Although attention allows to focus on the visual content relevant to the question, this simple mechanism is arguably insufficient to model complex reasoning features required for VQA or other high-level tasks. In this paper, we propose MuRel, a multimodal relational network which is learned end-to-end to reason over real images. Our first contribution is the introduction of the MuRel cell, an atomic reasoning primitive representing interactions between question and image regions by a rich vectorial representation, and modeling region relations with pairwise combinations. Secondly, we incorporate the cell into a full MuRel network, which progressively refines visual and question interactions, and can be leveraged to define visualization schemes finer than mere attention maps. We validate the relevance of our approach with various ablation studies, and show its superiority to attention-based methods on three datasets: VQA 2.0, VQA-CP v2 and TDIUC. Our final MuRel network is competitive to or outperforms state-of-the-art results in this challenging context. Our code is available: https://github.com/Cadene/murel.bootstrap.pytorch

研究の動機と目的

アテンションベースのモデルが柔らかく領域選択を超えた複雑な視覚的推論を捉えることの限界を解消すること。
画像領域と質問トークンの間の相互作用を明示的にモデル化する、学習可能でエンドツーエンドのマルチモーダル関係的ネットワークを開発すること。
回答頻度のパターンに依存せず、視覚的および関係的手がかりに依存することで、VQAにおける言語的バイアスへの頑健性を向上させること。
対比較的関係に基づく可視化スキームを通じて、より細分化された解釈可能性を提供すること。
アブレーションスタディーやベンチマーク比較を通じて、実画像VQAにおける関係的推論の有効性を検証すること。

提案手法

質問埋め込みと画像領域特徴の間の豊かなベクトル的相互作用を符号化する学習可能なプリミティブとしてMuRelセルを導入する。
要素ごとの演算と連結を用いて、画像領域間の対比較的関係をモデル化し、アテンションを越えた関係的推論を可能にする。
MuRelセルを複数回スタックすることで、画像と質問の共同表現を段階的に精錬する反復的アーキテクチャを採用する。
画像領域の入力として、Faster R-CNNなどのボトムアップオブジェクト検出特徴を用い、質問表現にはBERTまたはGRUで埋め込み処理を施す。
回答に最も関連する領域と関係を強調する微分可能で可視化メカニズムを適用し、標準的なアテンションマップを越える。
回答予測における交差エントロピー損失を用いて、ネットワーク全体をエンドツーエンドで学習する。

実験結果

リサーチクエスチョン

RQ1学習可能で関係的なメカニズムは、VQAにおける複雑な視覚的推論をモデル化するうえで、標準的なアテンションを上回ることができるか？
RQ2対比較的領域関係の明示的モデリングは、実画像VQAにおける一般化性と言語的バイアスへの頑健性を向上させるか？
RQ3マルチモーダル表現の反復的精錬は、より高い回答正答率とより解釈可能な意思決定をもたらすか？
RQ4提案された関係的推論メカニズムは、標準的およびバイアス付きVQAベンチマークでアテンションベースのベースラインと比べてどのように差をつけるか？
RQ5モデルの視覚的および関係的コンポーネントは、複雑なVQAタスクにおける性能向上にどの程度寄与しているか？

主な発見

TDIUCデータセットにおいてMURELは88.20%のテスト正答率を達成し、以前の最先端技術を3.17ポイント上回った。
VQA-CP v2データセットでは、MURELは全体で39.54%の正答率を達成し、ボトムアップ特徴を用いた強力なベースラインアテンションモデルを1.50ポイント上回った。
VQA 2.0では、MUREルは85.03%の正答率を達成し、以前の最先端技術を1.22ポイント上回った。
アブレーションスタディーにより、ベクトル表現と対比較的関係モデリングの両方が性能向上に顕著に寄与することが確認され、反復的精錬メカニズムがさらに結果を向上させた。
定性的分析の結果、MURELは「人間がキーブをもっている」や「女性の帽子」のような意味的に関連する領域と関係を正しく特定しており、言語的バイアスを超えた推論を示している。
関係的メカニズムの可視化により、緑色（最も関与）と赤色（最も影響力）の領域が強調され、人間の直感と一致し、解釈可能な推論経路を提供している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。