QUICK REVIEW

[论文解读] Image Captioning and Visual Question Answering Based on Attributes and External Knowledge

Qi Wu, Chunhua Shen|arXiv (Cornell University)|Mar 9, 2016

Multimodal Machine Learning Applications参考文献 14被引用 18

一句话总结

本文提出了一种新颖的CNN-RNN框架，通过整合从大规模知识库中获取的可学习视觉属性与外部知识，以提升图像字幕生成与视觉问答（VQA）性能。通过利用预测的视觉属性建模高层语义概念，并借助LSTM将这些属性与知识库查询进行融合，该方法在多个基准数据集上实现了最先进性能，包括在VQA评估服务器上达到59.50%的整体准确率。

ABSTRACT

Much recent progress in Vision-to-Language problems has been achieved through a combination of Convolutional Neural Networks (CNNs) and Recurrent Neural Networks (RNNs). This approach does not explicitly represent high-level semantic concepts, but rather seeks to progress directly from image features to text. In this paper we first propose a method of incorporating high-level concepts into the successful CNN-RNN approach, and show that it achieves a significant improvement on the state-of-the-art in both image captioning and visual question answering. We further show that the same mechanism can be used to incorporate external knowledge, which is critically important for answering high level visual questions. Specifically, we design a visual question answering model that combines an internal representation of the content of an image with information extracted from a general knowledge base to answer a broad range of image-based questions. It particularly allows questions to be asked about the contents of an image, even when the image itself does not contain a complete answer. Our final model achieves the best reported results on both image captioning and visual question answering on several benchmark datasets.

研究动机与目标

通过在CNN-RNN流程中引入高层视觉属性的显式表示，提升视觉到语言（V2L）任务性能。
通过引入对人类有意义的语义概念，克服直接图像特征到文本映射的局限性。
使VQA系统能够回答需要外部知识的复杂开放式问题，如“为什么”类问题。
开发一种可泛化的融合方法，整合图像内容、预测属性与知识库信息，实现多模态推理。
通过统一的、可训练的架构，在图像字幕与VQA基准测试中均实现最先进结果。

提出的方法

训练一个基于CNN的属性预测模型，将每张图像分类到一组对人类有意义的语义属性中，生成每个属性的概率向量。
将预测的属性概率作为LSTM解码器的输入用于图像字幕生成，替代直接使用CNN特征输入。
在VQA任务中，通过SPARQL查询将图像字幕、预测属性与基于RDF的知识库（如DBpedia）中的外部知识进行融合。
设计知识选择机制，基于图像内容与问题语义检索相关事实，提升外部知识的相关性。
最终模型采用A+C+S-K-LSTM架构，联合编码图像特征、属性、字幕与选定知识，以生成答案。
基于检测到的top-k属性与问题内容，动态生成知识库查询，实现上下文感知的外部事实检索。

实验结果

研究问题

RQ1显式建模高层视觉属性是否能超越直接的CNN-RNN特征映射，在图像字幕生成中提升性能？
RQ2从大规模知识库中引入外部知识是否能显著提升VQA系统在需要常识或世界知识的问题上的表现？
RQ3统一的神经架构在多大程度上能有效整合视觉属性、图像字幕与外部知识，以回答多样化的开放式视觉问题？
RQ4图像内容与知识库信息的融合在多大程度上能减少对场景推理中的错误，特别是针对“为什么”与“如何”类问题？
RQ5一种端到端可训练的系统，结合视觉属性与外部知识，是否能在标准VQA与字幕基准测试中超越现有最先进模型？

主要发现

所提出的基于属性的字幕生成模型在多个图像字幕数据集上实现了最先进性能，优于现有的CNN-RNN基线模型。
通过DBpedia的SPARQL查询整合外部知识，显著提升了VQA性能，尤其在需要常识或上下文推理的问题上表现突出。
在VQA评估服务器上，最终模型的整体准确率达到81.10%，超越了提交时所有已发表结果。
在复杂问题上，如“为什么他的手伸展着？”，该模型优于VggNet-LSTM基线模型，后者错误地预测为“玩”而非“保持平衡”。
系统在各类问题类型上表现出鲁棒性，包括是/否、数字与其它答案类别，在“是/否”与“其它”答案类型上取得显著提升。
该方法具有良好的泛化能力，即使在当前知识库不完整的情况下仍表现良好，表明在更全面的知识源支持下具有巨大潜力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。