Skip to main content
QUICK REVIEW

[论文解读] ABC-CNN: An Attention Based Convolutional Neural Network for Visual Question Answering

Kan Chen, Jiang Wang|arXiv (Cornell University)|Nov 18, 2015
Multimodal Machine Learning Applications参考文献 30被引用 278
一句话总结

本文提出ABC-CNN,一种基于注意力机制的卷积神经网络,用于视觉问答任务,通过问题引导的注意力机制动态聚焦于相关图像区域。通过采用由问题嵌入生成的可配置卷积核,ABC-CNN生成空间注意力图,增强特征表示,在多伦多COCO-QA、DAQUAR和VQA数据集上实现最先进性能,准确率显著提升。

ABSTRACT

We propose a novel attention based deep learning architecture for visual question answering task (VQA). Given an image and an image related natural language question, VQA generates the natural language answer for the question. Generating the correct answers requires the model's attention to focus on the regions corresponding to the question, because different questions inquire about the attributes of different image regions. We introduce an attention based configurable convolutional neural network (ABC-CNN) to learn such question-guided attention. ABC-CNN determines an attention map for an image-question pair by convolving the image feature map with configurable convolutional kernels derived from the question's semantics. We evaluate the ABC-CNN architecture on three benchmark VQA datasets: Toronto COCO-QA, DAQUAR, and VQA dataset. ABC-CNN model achieves significant improvements over state-of-the-art methods on these datasets. The question-guided attention generated by ABC-CNN is also shown to reflect the regions that are highly relevant to the questions.

研究动机与目标

  • 为解决视觉与语言理解在视觉问答任务中对齐的挑战,使模型能够聚焦于与特定问题相关的图像区域。
  • 开发一种无需人工标注注意力区域的机制,实现问题引导的注意力学习。
  • 通过自适应的、基于注意力的特征加权,整合视觉特征与问题语义,提升视觉问答准确率。
  • 通过生成与问题意图对齐的注意力图,提升视觉问答模型的可解释性。

提出的方法

  • ABC-CNN使用卷积神经网络提取空间视觉特征图,保留图像区域之间的空间关系。
  • 长短期记忆网络(LSTM)将输入问题编码为密集语义嵌入。
  • 通过将问题嵌入投影到视觉空间,生成可配置卷积核(CCK),实现基于查询的特征搜索。
  • CCK对视觉特征图执行可配置卷积,生成问题引导的注意力图(QAM),突出显示相关图像区域。
  • QAM对视觉特征进行空间加权,过滤噪声并强调与上下文相关联的区域,以支持答案生成。
  • 最终答案通过多分类分类器生成,使用注意力后的视觉特征和问题嵌入进行端到端训练,无需人工标注的注意力。

实验结果

研究问题

  • RQ1深度学习模型能否自动学习到对与给定问题语义相关图像区域的关注?
  • RQ2与全局特征池化或固定注意力机制相比,问题引导的注意力机制在多大程度上提升了视觉问答准确率?
  • RQ3生成的注意力图在多大程度上与人类标注或直观的兴趣区域一致?
  • RQ4可配置卷积机制能否有效将问题的语义信息传递到视觉特征的空间注意力上?

主要发现

  • 在多伦多COCO-QA数据集上,ABC-CNN的测试准确率达到0.6844,超越所有基线模型,较集成模型高出0.3%。
  • 在DAQUAR-缩减数据集上,ABC-CNN的准确率达到0.4276,显著优于次佳单模型(LSTM模型为0.3273)。
  • 在VQA数据集上,ABC-CNN使用前1000个最常见答案的准确率达到0.4838,较之前最先进单模型高出0.1259。
  • 消融实验表明,移除注意力机制导致准确率下降1.34%,证实了问题引导注意力的重要性。
  • 可视化结果表明,注意力图始终聚焦于与问题意图相关的区域,例如在不同示例中聚焦于外套或雨伞。
  • 全卷积变体(ATT-SEG)提升了推理速度并略微提高性能,ATT-VGG-SEG联合模型取得最佳整体结果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。