Skip to main content
QUICK REVIEW

[論文レビュー] Graph Reasoning Networks for Visual Question Answering.

Dalu Guo, Chang Xu|arXiv (Cornell University)|Jul 23, 2019
Multimodal Machine Learning Applications参考文献 1被引用数 9
ひとこと要約

本稿では、視覚的対象と質問語を対応付けるための inter-graph と、対象間の関係性を推論するための intra-graph の2つのグラフ構造を用いて、対象間の関係性をモデル化することで、視覚質問応答のためのグラフ推論ネットワーク(GRN)を提案する。この手法は、GQA v1.1で57.04%の精度を達成し、VQA 2.0の数え上げに関する質問でも顕著な向上を示し、最先端の性能を達成している。

ABSTRACT

The interaction between language and visual information has been emphasized in visual question answering (VQA) with the help of attention mechanism. However, the relationship between words in question has been underestimated, which makes it hard to answer questions that involve the relationship between multiple entities, such as comparison and counting. In this paper, we develop the graph reasoning networks to tackle this problem. Two kinds of graphs are investigated, namely inter-graph and intra-graph. The inter-graph transfers features of the detected objects to their related query words, enabling the output nodes to have both semantic and factual information. The intra-graph exchanges information between these output nodes from inter-graph to amplify implicit yet important relationship between objects. These two kinds of graphs cooperate with each other, and thus our resulting model can reason the relationship and dependence between objects, which leads to realization of multi-step reasoning. Experimental results on the GQA v1.1 dataset demonstrate the reasoning ability of our method to handle compositional questions about real-world images. We achieve state-of-the-art performance, boosting accuracy to 57.04%. On the VQA 2.0 dataset, we also receive a promising improvement on overall accuracy, especially on counting problem.

研究の動機と目的

  • 質問内の語の間の言語的関係を十分に活用していない既存のVQAモデルの限界を是正すること。
  • 比較、数え上げ、依存関係を含む合成的質問に特に焦点を当てた、複数の視覚的エンティティに対する推論の向上。
  • 視覚的対象と質問語の間の意味的および事実的関係を捉えるグラフベースのアーキテクチャの開発。
  • 2つの補完的グラフにおける構造的なメッセージパッシングにより、視覚的および言語的特徴を統合することで、複数ステップの推論を可能にすること。

提案手法

  • inter-graph は、質問語から検出された視覚的対象へ注目を向けることで、視覚的特徴を質問に関連するノードに転送し、意味的に根拠付けられた表現を形成する。
  • intra-graph は、inter-graph によって生成されたノード間でメッセージパッシングを実行し、視覚的エンティティ間の関係性に関する推論を可能にする。
  • 両方のグラフでグラフニューラルネットワークを用い、近隣ノードの集約を通じて反復的にノード表現を精緻化する。
  • 2つのグラフをスタックし、共同で学習させることで、視覚的および言語的入力に対して複数ホップの推論を実現する。
  • 両方のグラフに注目メカニズムを適用し、関連する特徴および関係性を動的に重み付ける。
  • 最終的な予測ヘッドは、精緻化されたノード表現を統合して質問に対する回答を生成する。

実験結果

リサーチクエスチョン

  • RQ1質問内の語の間の言語的関係をモデル化することで、視覚質問応答における推論が向上するか。
  • RQ2ニューラルネットワークアーキテクチャ内で、視覚的対象間の関係性を効果的に捉え、推論することは可能か。
  • RQ3二重グラフ構造(inter-および intra-graph)は、単一の注目メカニズムに比べて、複数ステップの推論を向上させるか。
  • RQ4提案手法が、特に数え上げや比較的質問において、性能をどの程度向上させるか。
  • RQ5複雑な視覚的関係性を有する現実世界の画像に対しても、モデルは一般化可能か。

主な発見

  • 提案されたグラフ推論ネットワークは、GQA v1.1データセットで最先端の57.04%の精度を達成した。
  • VQA 2.0ベンチマークにおける数え上げ関連の質問で顕著な向上を示し、合成的推論の向上が裏付けられた。
  • 二重グラフ機構は、質問に直接言及されていない視覚的対象間の暗黙的な関係性を効果的に捉えている。
  • intra-graph コンponent は、対象間の微細な依存関係を強調し、複数ステップの推論を可能にする上で重要な役割を果たしている。
  • 比較や数え上げを含む複雑な合成的質問において、従来の注目ベースのVQAモデルを上回る性能を示した。
  • アブレーションスタディにより、inter-graph および intra-graph の両コンponent が最終的な性能向上に顕著に寄与していることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。