QUICK REVIEW

[論文レビュー] Image Captioning and Visual Question Answering Based on Attributes and External Knowledge

Qi Wu, Chunhua Shen|arXiv (Cornell University)|Mar 9, 2016

Multimodal Machine Learning Applications参考文献 14被引用数 18

ひとこと要約

本論文は、大規模な知識ベースからの学習済み視覚的属性と外部知識を統合することで、画像キャプション生成と視覚的質疑応答（VQA）を向上させる、新しいCNN-RNNフレームワークを提案する。予測された属性を通じて高レベルの意味的コンセプトをモデル化し、LSTMを介して知識ベースの照会と統合することで、複数のベンチマークデータセットで最先端の性能を達成した。特に、VQA評価サーバーでは全体の正答率が59.50%に達した。

ABSTRACT

Much recent progress in Vision-to-Language problems has been achieved through a combination of Convolutional Neural Networks (CNNs) and Recurrent Neural Networks (RNNs). This approach does not explicitly represent high-level semantic concepts, but rather seeks to progress directly from image features to text. In this paper we first propose a method of incorporating high-level concepts into the successful CNN-RNN approach, and show that it achieves a significant improvement on the state-of-the-art in both image captioning and visual question answering. We further show that the same mechanism can be used to incorporate external knowledge, which is critically important for answering high level visual questions. Specifically, we design a visual question answering model that combines an internal representation of the content of an image with information extracted from a general knowledge base to answer a broad range of image-based questions. It particularly allows questions to be asked about the contents of an image, even when the image itself does not contain a complete answer. Our final model achieves the best reported results on both image captioning and visual question answering on several benchmark datasets.

研究の動機と目的

CNN-RNNパイプラインに高レベルの視覚的属性の明示的表現を導入することで、ビジョン・ツー・ランゲージ（V2L）の性能を向上させること。
人間にとって意味のある意味的コンセプトを組み込むことで、画像特徴からテキストへの直接的なマッピングの限界を克服すること。
「なぜ」などの質問を含む、外部知識を必要とする複雑でオープンエンドな質問に応答できるVQAシステムを実現すること。
画像コンテンツ、予測された属性、知識ベース情報の統合を可能にする汎用的な手法を構築し、マルチモodal推論を実現すること。
統一的で学習可能なアーキテクチャを用いて、画像キャプションとVQAベンチマークの両方で最先端の結果を達成すること。

提案手法

人間が意味すると感じるセマンティック属性のセットに画像を分類するCNNベースの属性予測モデルを学習し、各属性ごとに尤度ベクトルを出力する。
予測された属性尤度を、画像キャプション生成のLSTMデコーダの入力として使用し、直接的なCNN特徴の入力を置き換える。
VQAの文脈では、画像キャプション、予測された属性、およびRDFベースの知識ベース（例：DBpedia）からの外部知識をSPARQLクエリを介して統合する。
知識選択メカニズムにより、画像コンテンツと質問の意味的特徴に基づいて関連する事実を取得し、外部知識の関連性を向上させる。
最終的なモデルは、画像特徴、属性、キャプション、選択された知識を統合的に符号化するA+C+S-K-LSTMアーキテクチャを採用する。
知識ベースのクエリは、検出された上位k個の属性と質問内容を用いて動的に生成され、文脈に応じた外部事実の取得を可能にする。

実験結果

リサーチクエスチョン

RQ1高レベルの視覚的属性の明示的モデリングが、直接的なCNN-RNN特徴マッピングを超えて、画像キャプション生成の性能を向上させることができるか？
RQ2大規模な知識ベースからの外部知識が、常識的知識や世界知識を必要とする質問に対して、VQAシステムの性能を顕著に向上させることができるか？
RQ3統一的でニューラルネットワークアーキテクチャが、視覚的属性、画像キャプション、外部知識を効果的に統合し、多様でオープンエンドな視覚的質問に応答できるか？
RQ4画像コンテンツと知識ベース情報の統合が、特に「なぜ」や「どうして」の質問において、シーンに関する推論の誤りをどの程度低減できるか？
RQ5属性と外部知識を統合する学習可能でエンド・ツー・エンドのシステムが、標準的なVQAおよびキャプションベンチマークで、既存の最先端モデルを上回ることができるか？

主な発見

提案された属性ベースのキャプション生成モデルは、複数の画像キャプションデータセットで最先端の性能を達成し、既存のCNN-RNNベースラインを上回った。
DBpediaからのSPARQLクエリによる外部知識の統合は、常識的知識や文脈的推論を必要とする質問において、VQA性能を顕著に向上させた。
VQA評価サーバーでは、最終モデルが全体の正答率81.10%を達成し、提出時点でのすべての既存の発表済み結果を上回った。
「なぜ彼の手が伸びているのですか？」のような複雑な質問において、VggNet-LSTMベースラインが誤って「遊んでいる」と予測するのに対し、本モデルは正しく「バランスを取っている」と予測した。
「はい／いいえ」や「その他の答え」などの質問タイプに対しても、本システムは多様な質問タイプに対して頑健であり、「はい／いいえ」と「その他の答え」タイプで顕著な向上を示した。
本手法は汎用的であり、知識ベースが不完全であっても良好に動作したため、より包括的な知識源が利用可能になれば、さらなる潜在的向上が期待できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。