QUICK REVIEW

[論文レビュー] Visual Question Answering: A Survey of Methods and Datasets

Qi Wu, Damien Teney|arXiv (Cornell University)|Jul 20, 2016

Multimodal Machine Learning Applications参考文献 101被引用数 44

ひとこと要約

本サーベイは、視覚的質問応答（VQA）の包括的概要を提供し、特に畳み込みニューラルネットワーク（CNN）と再帰ニューラルネットワーク（RNN）を用いて画像と質問を共有の特徴空間にマップする深層学習手法を、最先端の方法としてレビューする。主なデータセットの評価、構造化されたシーンアノテーションおよび外部知識ベースの役割の分析、外部知識の統合と高度な自然言語処理（NLP）技術の活用によるVQAにおける推論の向上を目指す今後の研究方向性の特定を行う。

ABSTRACT

Visual Question Answering (VQA) is a challenging task that has received increasing attention from both the computer vision and the natural language processing communities. Given an image and a question in natural language, it requires reasoning over visual elements of the image and general knowledge to infer the correct answer. In the first part of this survey, we examine the state of the art by comparing modern approaches to the problem. We classify methods by their mechanism to connect the visual and textual modalities. In particular, we examine the common approach of combining convolutional and recurrent neural networks to map images and questions to a common feature space. We also discuss memory-augmented and modular architectures that interface with structured knowledge bases. In the second part of this survey, we review the datasets available for training and evaluating VQA systems. The various datatsets contain questions at different levels of complexity, which require different capabilities and types of reasoning. We examine in depth the question/answer pairs from the Visual Genome project, and evaluate the relevance of the structured annotations of images with scene graphs for VQA. Finally, we discuss promising future directions for the field, in particular the connection to structured knowledge bases and the use of natural language processing models.

研究の動機と目的

視覚的および言語的モダリティを統合するためのメカニズムを含め、現在のVQA手法の体系的レビューを行うこと。
自然画像、クリッパー卜、知識強化型コレクションを含む、既存のVQAデータセットの多様性と複雑さを分析すること。
Visual Genomeからのような構造化されたシーンアノテーションが、VQAパフォーマンス向上に果たす役割を評価すること。
視覚的コンテンツを超えた外部知識と推論の必要性に起因する、VQAにおける主な課題を特定すること。
スケーラブルな外部知識ベースの統合と、VQAシステムにおけるNLPツールの強化を含む、今後の研究方向性を提案すること。

提案手法

CNNとRNNを用いて画像と質問を共有のベクトル空間にマップするジョイントエンベッディング手法に分類する。
質問の内容に基づき、関連する画像領域に注目できる注目メカニズムをレビューする。
質問を実行可能なサブタスクに分解するニューラルモジュールネットワークやダイナミックメモリネットワークのようなモジュラーアーキテクチャを検討する。
外部知識を格納・取得することで、複雑な質問に答えるためのメモリ拡張ネットワークを分析する。
構造化された知識ベースにアクセスして、画像を超えた事実または一般常識的知識を得るモデルを調査する。
Visual GenomeからのシーングラフアノテーションがVQAパフォーマンスおよび推論能力に与える影響を分析する。

実験結果

リサーチクエスチョン

RQ1ジョイントエンベッディング、注目、モジュラー、メモリ拡張アーキテクチャといった異なるアーキテクチャは、視覚的および言語的入力の推論能力においてどのように比較されるか？
RQ2構造化されたシーンアノテーションおよび知識ベースの強化は、VQAパフォーマンスおよび推論の正確性をどの程度向上させるか？
RQ3外部知識を必要とする複雑な推論を支援する点で、現在のVQAデータセットの限界は何か？
RQ4事前学習済み言語モデルや構文解析といったNLP技術は、VQAシステムに統合され、質問理解をどのように向上させるか？
RQ5スケーラブルな外部知識ベースは、視覚的認識を超えて一般常識的および事実的推論を含むVQAの発展にどのような役割を果たすか？

主な発見

CNNとRNNを用いたジョイントエンベッディング手法は、依然としてVQAの主流であり、視覚的および言語的表現を共有の空間に効果的に統合している。
注目メカニズムは、質問に対応する関連画像領域にモデルが注目できるようにすることで、性能向上に顕著な寄与をしている。
モジュラーおよびメモリ拡張アーキテクチャは、構成的および推論を要する質問を処理する上で有望であるが、広く採用されているわけではない。
知識ベース強化型データセットは規模が限定的であるが、外部事実を必要とする質問の推論向上の可能性を示している。
Visual Genomeからの構造化されたシーンアノテーションは、VQAに有益なインダクティブバイアスを提供し、関係性や属性に基づく質問に対してパフォーマンス向上をもたらしている。
今後のVQAの進展は、外部知識のより良い統合と、事前学習済み言語モデルや構文解析といった高度なNLP技術の活用にかかっていると考えられ、質問理解および回答生成の向上が期待される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。