QUICK REVIEW

[論文レビュー] Scene Graph Reasoning with Prior Visual Relationship for Visual Question Answering

Zhuoqian Yang, Zengchang Qin|arXiv (Cornell University)|Dec 23, 2018

Multimodal Machine Learning Applications参考文献 57被引用数 26

ひとこと要約

この論文では、関係性を強化するための事前学習済みの視覚的関係表現を活用する、シーングラフに基づく視覚的質疑応答モデルであるSceneGCNを提案する。オブジェクトと関係性を深い意味的空間に符号化し、質問に従った注目メカニズムを備えたグラフ畳み込みネットワークを用いることで、GQAベンチマークでSOTAの54.56%の正確性を達成し、従来手法に比べてより優れた推論能力と解釈可能性を示した。

ABSTRACT

One of the key issues of Visual Question Answering (VQA) is to reason with semantic clues in the visual content under the guidance of the question, how to model relational semantics still remains as a great challenge. To fully capture visual semantics, we propose to reason over a structured visual representation - scene graph, with embedded objects and inter-object relationships. This shows great benefit over vanilla vector representations and implicit visual relationship learning. Based on existing visual relationship models, we propose a visual relationship encoder that projects visual relationships into a learned deep semantic space constrained by visual context and language priors. Upon the constructed graph, we propose a Scene Graph Convolutional Network (SceneGCN) to jointly reason the object properties and relational semantics for the correct answer. We demonstrate the model's effectiveness and interpretability on the challenging GQA dataset and the classical VQA 2.0 dataset, remarkably achieving state-of-the-art 54.56% accuracy on GQA compared to the existing best model.

研究の動機と目的

個々のオブジェクトを超えた視覚的関係を明示的にモデル化することで、視覚的質疑応答の性能を向上させること。
従来のVQAモデルにおける、暗黙的または弱教師付きの関係性推論の限界を解消すること。
事前学習済みの視覚的関係検出の知識を、より良い推論を実現するための構造的シーングラフに統合すること。
段階的に関連する関係性やオブジェクトを特定する、微分可能で解釈可能な推論メカニズムの開発。

提案手法

モデルは、事前学習済みのオブジェクト検出器と視覚的関係エンコーダーを用いて、文脈および言語制約付きの関係埋め込みを生成することで、シーングラフを構築する。
シーングラフ畳み込みネットワーク（SceneGCN）は、シーングラフ上でメッセージパッシングを実行し、オブジェクトおよび関係特徴を用いてノード表現を更新する。
シーングラフ畳み込みユニットは、質問との関連性に基づいて、関係性の重みを動的に設定する質問-関係ガイドド自己注意メカニズムを用いる。
質問ガイドドオブジェクト注目ユニットは、関係に敏感な表現に注目することで、最も関連性の高いオブジェクトを特定し、段階的推論を可能にする。
視覚的関係エンコーダーは、視覚的文脈と言語的事前知識の両方を用いて訓練され、タイプに敏感で判別力のある関係埋め込みを生成する。
モデル全体はエンドツーエンドで学習可能であり、注目メカニズムにより局所化された推論トレースを提供し、解釈可能性を実現する。

実験結果

リサーチクエスチョン

RQ1事前学習済みの視覚的関係表現は、視覚的質疑応答における推論性能を向上させることができるか？
RQ2視覚的関係性は、神経ネットワークに効果的に符号化され、統合されるか？
RQ3注目メカニズムを備えたグラフベースアーキテクチャは、シーングラフ上で段階的かつ解釈可能な推論を可能にするか？
RQ4構造的な関係的知識を統合することで、合成的VQAベンチマークにおける一般化性能と正確性が向上するか？

主な発見

提案されたSceneGCNモデルは、挑戦的なGQAデータセットで54.56%のトップ1正確性を達成し、SOTAの性能を実現した。
アブレーションスタディの結果、事前学習済みの視覚的関係表現を統合することで、そのような事前知識のないモデルに比べて推論性能が顕著に向上した。
モデルは強力な解釈可能性を示しており、注目マップが質問に応じて関連する関係性やオブジェクトを明確に局所化している。
定性的な結果から、モデルは段階的推論を実行していることが示された：まず重要な関係性を特定し、次に回答予測に必要な重要なオブジェクトに注目する。
質問ガイドドオブジェクト注目メカニズムは、関係に基づく推論チェーンにおいて「beef」のような最も関連性の高いオブジェクトを効果的に強調している。
視覚的関係エンコーダーは、注意可視化とアブレーションによって裏付けられるように、判別力がありタイプに敏感な埋め込みを生成し、下流の推論を向上させた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。