Skip to main content
QUICK REVIEW

[論文レビュー] Incorporating External Knowledge to Answer Open-Domain Visual Questions with Dynamic Memory Networks

Guohao Li, Hang Su|arXiv (Cornell University)|Dec 3, 2017
Multimodal Machine Learning Applications参考文献 29被引用数 41
ひとこと要約

本稿では、外部の知識グラフから動的メモリネットワークを介して知識を統合することで、オープンドメインの視覚的質問応答を向上させる、知識統合型ダイナミックメモリネットワーク(KDMN)を提案する。関連する事実を連続的メモリ空間に埋め込むことで、視覚的知識と外部知識の両方を用いたマルチホップ推論を実現し、特に世界知識を要する複雑な質問において最先端の性能を達成する。

ABSTRACT

Visual Question Answering (VQA) has attracted much attention since it offers insight into the relationships between the multi-modal analysis of images and natural language. Most of the current algorithms are incapable of answering open-domain questions that require to perform reasoning beyond the image contents. To address this issue, we propose a novel framework which endows the model capabilities in answering more complex questions by leveraging massive external knowledge with dynamic memory networks. Specifically, the questions along with the corresponding images trigger a process to retrieve the relevant information in external knowledge bases, which are embedded into a continuous vector space by preserving the entity-relation structures. Afterwards, we employ dynamic memory networks to attend to the large body of facts in the knowledge graph and images, and then perform reasoning over these facts to generate corresponding answers. Extensive experiments demonstrate that our model not only achieves the state-of-the-art performance in the visual question answering task, but can also answer open-domain questions effectively by leveraging the external knowledge.

研究の動機と目的

  • 画像の内容を超えた外部の世界知識を必要とするオープンドメインの質問に、従来のVQAモデルが限界を示す問題に対処すること。
  • 神経的メモリ機構を用いて、構造化された知識ベースと視覚入力の両方に対してマルチホップ推論を可能にすること。
  • 背景知識を統合することで、特に「誰が」「何が」「なぜ」型の複雑な視覚的質問の性能を向上させること。
  • 視覚的特徴と知識グラフ埋め込みを動的メモリモジュール内で統合的に符号化する統一フレームワークを設計すること。

提案手法

  • 画像のオブジェクトと質問のキーワードをクエリとして用い、外部の知識ベース(例:Freebase)から文脈に関連する知識三項集合を検索する。
  • 検索された知識三項集合を、エンティティと関係の構造を保持する知識埋め込みモデルを用いて連続的ベクトル空間に埋め込む。
  • 動的メモリネットワークが、視覚的特徴(Faster R-CNNから得られるもの)と埋め込み済みの知識事実の両方に注目し、複数のメモリホップにわたる反復的推論を可能にする。
  • 各ステップで視覚的入力と知識入力の関連性を重みづけする注目メカニズムを用いて、エピソード的メモリベクトルを更新する。
  • 視覚的表現と知識表現を共有された潜在空間に統合し、結合表現に対してソフト注目メカニズムを用いて最終的な答えを予測する。
  • 共有ハイパーパrameterを用いたエンドツーエンド学習が可能であり、標準的およびカスタムのオープンドメインVQAベンチマークで評価される。

実験結果

リサーチクエスチョン

  • RQ1深層学習ベースのVQAシステムは、画像の内容を超えた外部の世界知識を要するオープンドメインの質問を効果的に回答できるか?
  • RQ2知識グラフからの構造化された知識を神経ネットワークアーキテクチャ内で視覚的特徴と効果的に統合できるか?
  • RQ3動的メモリネットワークの使用は、視覚的質問応答における複数の事実の推論を改善するか?
  • RQ4外部知識の統合が、「誰が」「何が」「なぜ」型の複雑な質問タイプの性能向上にどの程度寄与するか?

主な発見

  • KDMNの完全モデルはVisual7Wデータセットで平均66.0%の精度を達成し、KDMN-NoKGベースラインより4.0%向上、KDMN-NoMemより1.6%向上した。
  • オープンドメインVQAでは、KDMNが57.8%の精度を達成し、KDMN-NoKGより12.7%向上した。そのうち6.8%は外部知識、5.9%はメモリ機構による寄与であった。
  • 「誰が」(5.9%)および「何が」(4.9%)の質問に対して、特に大きな性能向上が見られ、多様で知識依存的な質問への外部知識統合の利点が顕著に示された。
  • 異なる初期化から学習した複数のKDMNモデルをアンサンブルすることで、Visual7Wでは69.4%、オープンドメインデータセットでは60.9%の性能に向上した。
  • アブレーションスタディの結果、動的メモリネットワークと外部知識統合の両方が不可欠であることが確認され、KDMN-NoMemはKDMN-NoKGを2.4%上回った。これは、メモリ強化推論の価値を示している。
  • 定性的な例では、信号機の機能や動物の食性といった分野知識を要する質問に対して、外部事実を検索し、それらを推論することで正しく回答していることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。