QUICK REVIEW

[論文レビュー] Image Captioning and Visual Question Answering Based on Attributes and Their Related External Knowledge.

Qi Wu, Chunhua Shen|arXiv (Cornell University)|Mar 9, 2016

Multimodal Machine Learning Applications被引用数 33

ひとこと要約

この論文は、高レベルの視覚的属性と外部知識をCNN-RNNフレームワークに統合することで、画像キャプション生成と視覚的質問応答を向上させている。外部ソースからの構造化された知識と画像特徴を統合することで、モデルはベンチマークデータセット上で性能を向上させ、両タスクにおいて最先端の結果を達成した。

ABSTRACT

Much recent progress in Vision-to-Language problems has been achieved through a combination of Convolutional Neural Networks (CNNs) and Recurrent Neural Networks (RNNs). This approach does not explicitly represent high-level semantic concepts, but rather seeks to progress directly from image features to text. In this paper we first propose a method of incorporating high-level concepts into the successful CNN-RNN approach, and show that it achieves a significant improvement on the state-of-the-art in both image captioning and visual question answering. We further show that the same mechanism can be used to incorporate external knowledge, which is critically important for answering high level visual questions. Specifically, we design a visual question answering model that combines an internal representation of the content of an image with information extracted from a general knowledge base to answer a broad range of image-based questions. It particularly allows questions to be asked about the contents of an image, even when the image itself does not contain a complete answer. Our final model achieves the best reported results on both image captioning and visual question answering on several benchmark datasets.

研究の動機と目的

高レベルの意味的コンセプトを捉える能力に欠けるCNN-RNNモデルの限界を、視覚的属性の統合によって解消すること。
画像に存在する情報以上の外部知識を統合することで、視覚的質問応答を改善すること。
答えが画像に直接表示されていない複雑な視覚的質問に対しても、モデルが回答できるようにすること。
画像キャプション生成および視覚的質問応答の標準ベンチマークで最先端の性能を達成すること。
内部画像表現と外部知識の組み合わせが、視覚言語タスクにおける推論を向上させることを示すこと。

提案手法

モデルは、高レベルの視覚的属性を画像表現に統合するメカニズムを導入することで、CNN-RNNアーキテクチャを拡張した。
一般知識ベースからの外部知識を統合して、画像コンテンツに関する推論を支援する。
内部視覚特徴と外部知識埋め込みを組み合わせることで、より情報に基づいたキャプションと回答を生成する。
生成過程において、視覚特徴と関連する知識コンponentsを一致させるために、共同注意メカニズムが用いられた。
キャプション生成には交差エントロピー損失、視覚的質問応答にはマルチタスク学習を用いて、エンドツーエンドで訓練された。
画像の内容に基づいて知識を取得し、RNNデコーダーの条件付けに使用することで、生成性能を向上させた。

実験結果

リサーチクエスチョン

RQ1高レベルの視覚的属性の統合により、標準のCNN-RNNモデルを上回る画像キャプション生成性能が達成可能か？
RQ2外部知識ベースは、画像にない情報が必要な推論を要する質問に対して、視覚的質問応答を向上させられるか？
RQ3属性と知識の統合を用いた統合型モデルが、画像キャプション生成と視覚的質問応答の両方を効果的に処理できるか？
RQ4外部知識の統合が、複雑な視覚的質問に対する一般化性能をどの程度向上させるか？
RQ5視覚的特徴と外部知識の統合が、ベンチマークデータセットで最先端の結果をもたらすか？

主な発見

提案手法は、画像キャプション生成および視覚的質問応答の複数のベンチマークデータセットで最先端の結果を達成した。
高レベルの視覚的属性の統合により、標準のCNN-RNNベースラインを大幅に上回る性能向上が達成された。
外部知識の統合により、画像に直接は記載されていない質問に対してもモデルが回答できるようになった。
視覚特徴と知識ベース情報の組み合わせにより、モデルの推論能力が向上した。
BLEU、ROUGE、VQA精度といった標準評価指標において、既存手法を上回る性能を示した。
内部表現と外部表現の統合により、より一貫性があり文脈的に正確なキャプションと回答が生成された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。