QUICK REVIEW

[論文レビュー] FVQA: Fact-based Visual Question Answering

Peng Wang, Qi Wu|arXiv (Cornell University)|Jun 17, 2016

Multimodal Machine Learning Applications参考文献 74被引用数 36

ひとこと要約

本稿では、視覚的認識を超えた推論を可能にするfactベースの視覚的質疑応答（VQA）データセットFVQAを紹介する。従来のVQAとは異なり、外部知識ベースから抽出された支援知識トリプル（例：<猫, 能力を持つ, 樹木を這いのぼる>）を導入することで、視覚的知覚を超えた推論を可能にする。提案手法はLSTMを用いて質問から知識ベース（KB）クエリへのマッピングを学習し、数百万の事実から正しく支援事実を予測する際のトップ1正答率が41.12%に達する。これにより、VQAにおける明示的かつ解釈可能な推論が実現される。

ABSTRACT

Visual Question Answering (VQA) has attracted a lot of attention in both Computer Vision and Natural Language Processing communities, not least because it offers insight into the relationships between two important sources of information. Current datasets, and the models built upon them, have focused on questions which are answerable by direct analysis of the question and image alone. The set of such questions that require no external information to answer is interesting, but very limited. It excludes questions which require common sense, or basic factual knowledge to answer, for example. Here we introduce FVQA, a VQA dataset which requires, and supports, much deeper reasoning. FVQA only contains questions which require external information to answer. We thus extend a conventional visual question answering dataset, which contains image-question-answerg triplets, through additional image-question-answer-supporting fact tuples. The supporting fact is represented as a structural triplet, such as . We evaluate several baseline models on the FVQA dataset, and describe a novel model which is capable of reasoning about an image on the basis of supporting facts.

研究の動機と目的

従来のVQAデータセットが画像と質問からのみ回答可能な質問に限定されているという限界を是正するため、外部の事実的知識を必要とするデータセットを導入すること。
各質問-回答ペairに構造化された知識ベースを支援事実として統合することで、VQAにおけるより深い推論を可能にすること。
多様な回答空間に一般化可能なスケーラブルなVQAモデルを開発すること。具体的には、質問を直接答えにマッピングするのではなく、KBクエリにマッピングする学習を実現すること。
予測された支援事実を通じて推論の流れを露顯させることで、VQAモデルの解釈可能性を高めること。

提案手法

従来のVQAデータセットに、DBpedia や ConceptNet などの外部知識ベースから抽出された構造化トリプル（例：<主語, 述語, 宾語>）としての支援事実タプルを追加する。
WebChild、DBpedia、ConceptNet などの複数のソースからの事実を統一的にアライメントおよび正規化することで、統合知識ベースを構築する。
長短期記憶（LSTM）ネットワークに基づく質問からクエリへのマッピングモジュールを用い、自然言語の質問を形式的なKBクエリに変換する。
生成されたクエリを用いて統合知識ベースを照会し、関連する事実を取得する。得られた事実を用いて答えを推論する。
複数の照会結果から最も関連性の高い事実をランク付け・選択するための後処理ステップを適用し、答えの正答率を向上させる。
質問エンコーディング → KBクエリ生成 → 事実取得 → 答え生成の多段階パイプラインを採用。支援事実を通じて明示的な推論の流れを提供する。

実験結果

リサーチクエスチョン

RQ1視覚的認識を超えた外部的事実的知識を必要とする質問に回答できるVQAシステムを設計できるか？
RQ2大規模知識ベースにおける自然言語の質問を構造的クエリにマッピングするモデルは、どのように学習できるか？
RQ3支援事実の使用が、VQAシステムの解釈可能性と正答率に与える影響は何か？
RQ4オープンエンドVQAにおいて、質問からKBクエリへのマッピングと、質問から直接答えへの学習を比較すると、性能にどのような差が生じるか？
RQ5factベースのVQAにおける主な失敗モードは何か。それらはどのように緩和できるか？

主な発見

提案された「top-3-QQmapping」モデルは、知識ベース内の数百万の事実から正しい支援事実を予測する際、トップ1正答率が41.12%に達し、トップ3正答率は45.49%に達する。
正解の質問-クエリマッピングが与えられた場合、支援事実予測正答率は顕著に向上し、トップ1正答率が56.31%に達する。これは、質問理解が主なボトルネックであることを示唆している。
答えが画像内に存在する視覚的コンセプトである場合、知識ベースの事実に依存する場合と比較して、正答率がほぼ5倍に上昇する。
オブジェクト関連の質問は、シーンや動作関連の質問よりも高い正答率で回答される。これは、VggNet などの事前学習済みオブジェクト検出器による特徴表現が優れているためである。
失敗事例の主な原因は、誤った視覚的コンセプト検出、不適切な質問-クエリマッピング、または事実ランク付けにおける最適でない後処理にある。
本モデルは、予測された支援事実を生成することで、明示的な推論を実現している。これは、多くの先行VQAモデルがブラックボックス的な答えを出力するのとは対照的である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。