[論文レビュー] Ask Me Anything: Free-form Visual Question Answering Based on Knowledge from External Sources
本論文は、画像の内容を超えた外部知識を必要とする複雑で自由形式の質問に答えるために、深層学習と外部知識ベースを組み合わせた視覚的質疑応答(VQA)モデルを提案する。画像のキャプション、検出された属性、知識ベースの照会をDoc2VecとLSTMを用いて統合することで、Toronto COCO-QAで69.73%、VQA評価サーバーで59.44%の最先端性能を達成した。
We propose a method for visual question answering which combines an internal representation of the content of an image with information extracted from a general knowledge base to answer a broad range of image-based questions. This allows more complex questions to be answered using the predominant neural network-based approach than has previously been possible. It particularly allows questions to be asked about the contents of an image, even when the image itself does not contain the whole answer. The method constructs a textual representation of the semantic content of an image, and merges it with textual information sourced from a knowledge base, to develop a deeper understanding of the scene viewed. Priming a recurrent neural network with this combined information, and the submitted question, leads to a very flexible visual question answering approach. We are specifically able to answer questions posed in natural language, that refer to information not contained in the image. We demonstrate the effectiveness of our model on two publicly available datasets, Toronto COCO-QA and MS COCO-VQA and show that it produces the best reported results in both cases.
研究の動機と目的
- 画像の内容を超えた知識を必要とする複雑でオープンエンドの質問に答えることができる視覚的質疑応答システムの実現。
- 一般用途の知識ベース(例:DBpedia)からの外部知識をニューラルVQAフレームワークに統合すること。
- 共通知識や世界知識を必要とする質問(例:「なぜ」や「どこで」)の性能向上。
- 視覚的・テキスト的・知識ベースの表現を統合する汎用的でエンドツーエンドで学習可能なアーキテクチャの開発。
提案手法
- 入力画像から高レベルの画像属性(例:物体、シーン、行動)を抽出するためにCNNを用いる。
- 検出された属性に基づいて、複数の記述的キャプションを生成する最先端の画像キャプションモデルを用いる。
- 上位5つの属性ごとに、RDFベースの知識ベース(例:DBpedia)から関連するテキスト情報を取得するSPARQLクエリを生成する。
- KBから取得したテキストの知識スニペットをDoc2Vecを用いて固定長のベクトルに符号化する。
- 画像の属性、生成されたキャプション、Doc2Vecで符号化されたKBコンテンツを連結し、LSTMネットワークに供給して最終的な回答を生成する。
- 学習セットにおける正解回答の尤度を最大化するように、モデル全体をエンドツーエンドで学習する。
実験結果
リサーチクエスチョン
- RQ1外部知識ベースは、画像の内容を超えた世界知識を必要とするVQAシステムの性能向上に寄与するか?
- RQ2ニューラルネットワークは、視覚的属性、画像キャプション、外部KB情報の統合をどれほど効果的に実行できるか?
- RQ3属性、キャプション、KBの複数の知識ソースを組み合わせることで、視覚的またはテキスト的特徴のみを用いるモデルよりも顕著な性能向上が得られるか?
- RQ4データセット固有の知識ベースの構築を必要とせず、DBpediaのような汎用的知識ベースをVQAに効果的に活用できるか?
主な発見
- 提案されたモデルは、Toronto COCO-QAデータセットで69.73%の最先端の正確度を達成し、以前の最先端(55.92%)を著しく上回った。
- VQA評価サーバー(test-standard)では、全体で59.44%の正確度を達成し、これまでに報告されたすべての結果を上回った。
- 外部の共通知識を必要とする「なぜ」の質問では、KB統合を追加することで性能が50%以上向上した(全A+C+K-LSTMモデルでは7.77%から13.53%に向上)。
- モデルは全質問カテゴリで高い性能を示し、「なぜ」や「どこで」の質問において顕著な向上を示しており、これらは外部知識に強く依存する。
- 属性・キャプション・KBを組み合わせたA+C+K-LSTMモデルは、画像と質問の特徴のみ、または画像とキャプションの特徴のみを用いるモデルを常に上回った。
- VQA test-devセットでは全体で59.17%の正確度を達成し、yes/no質問では81.01%、他のカテゴリでは45.23%を記録しており、強力な一般化性能を示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。