QUICK REVIEW

[論文レビュー] Relation-Aware Graph Attention Network for Visual Question Answering

Linjie Li, Zhe Gan|arXiv (Cornell University)|Mar 29, 2019

Multimodal Machine Learning Applications参考文献 66被引用数 56

ひとこと要約

この論文は ReGAT を導入します。ReGAT は関係性を考慮したグラフ注意ネットワークで、画像内のオブジェクト間の明示的・暗黙的な関係を質問に条件付けてモデル化し、VQA の性能を向上させます。既存の VQA アーキテクチャにプラグアンドプレイ可能なモジュールとして互換性があり、VQA 2.0 および VQA-CP v2 で最先端の結果を達成します。

ABSTRACT

In order to answer semantically-complicated questions about an image, a Visual Question Answering (VQA) model needs to fully understand the visual scene in the image, especially the interactive dynamics between different objects. We propose a Relation-aware Graph Attention Network (ReGAT), which encodes each image into a graph and models multi-type inter-object relations via a graph attention mechanism, to learn question-adaptive relation representations. Two types of visual object relations are explored: (i) Explicit Relations that represent geometric positions and semantic interactions between objects; and (ii) Implicit Relations that capture the hidden dynamics between image regions. Experiments demonstrate that ReGAT outperforms prior state-of-the-art approaches on both VQA 2.0 and VQA-CP v2 datasets. We further show that ReGAT is compatible to existing VQA architectures, and can be used as a generic relation encoder to boost the model performance for VQA.

研究の動機と目的

意味豊かな VQA のために、画像オブジェクト間の意味動態と相互作用を理解する動機。
明示的（空間的/意味的）および暗黙的な関係の両方を学習する関係エンコーダの開発。
注意と融合を導くため、質問に適応する関係表現を作る。
ReGAT が既存の VQA アーキテクチャと互換性があり、性能を向上させることを実証する。

提案手法

全結合の暗黙的関係グラフを構築し、必要に応じて明示的関係グラフ（空間的および意味的）へ剪定する。
質問適応型のグラフ注意機構を実装して関係をエンコードし、マルチヘッド注意を用いる。
関係エンコーダを暗黙的、空間的、意味的のブランチに分離し、推論時にそれらの出力を加重和で結合する。
Faster R-CNN を用いてオブジェクト領域と特徴を抽出し、自己注意付きの GRU ベースの質問エンコーダを用いる。
既存の VQA アーキテクチャと多モーダル融合を行い、MLP分類器で回答を予測する。
関係エンコーダを個別に学習させ、学習された重み（α、β）で出力をアンサンブルする。

実験結果

リサーチクエスチョン

RQ1明示的および暗黙的なオブジェクト間関係は、オブジェクトレベルの特徴を超えて VQA の性能を改善できるか？
RQ2質問適応型の関係エンコーダは、非適応的手法よりも質問と領域の整合性を改善するか？
RQ3ReGAT は既存の VQA アーキテクチャやデータセットに対してプラグアンドプレイ可能なモジュールとして互換性があるか？
RQ4各関係タイプ（意味的、空間的、暗黙的）が、モデル間で性能に寄与する程度はどれくらいか？

主な発見

ReGAT は VQA 2.0 で Bottom-up Top-Down (BUTD)、MUTAN、BAN のベースラインに一貫した改善をもたらす。
各関係タイプ（意味的、空間的、暗黙的）は、グラフ注意を用いると性能を向上させる。
質問適応型の関係は、静的な関係エンコーダを超える追加の利得をもたらす。
VQA-CP v2 で ReGAT は最先端の結果を達成し、すべての関係を用いると顕著な改善が見られる。
総じて、ReGAT の統合は、追加の特徴量拡張を必要とせずにベースラインを大幅に上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。