Skip to main content
QUICK REVIEW

[论文解读] Stacked Attention Networks for Image Question Answering

Zichao Yang, Xiaodong He|arXiv (Cornell University)|Nov 7, 2015
Multimodal Machine Learning Applications被引用 193
一句话总结

本文提出用于图像问答的堆叠注意力网络(SAN),通过多层注意力机制,根据问题语义逐步聚焦于相关图像区域。该模型在四个基准数据集上均超越了先前的最先进方法,通过堆叠注意力层实现分层推理。

ABSTRACT

This paper presents stacked attention networks (SANs) that learn to answer natural language questions from images. SANs use semantic representation of a question as query to search for the regions in an image that are related to the answer. We argue that image question answering (QA) often requires multiple steps of reasoning. Thus, we develop a multiple-layer SAN in which we query an image multiple times to infer the answer progressively. Experiments conducted on four image QA data sets demonstrate that the proposed SANs significantly outperform previous state-of-the-art approaches. The visualization of the attention layers illustrates the progress that the SAN locates the relevant visual clues that lead to the answer of the question layer-by-layer.

研究动机与目标

  • 解决图像问答中多步推理的需求,其中答案通常依赖于细粒度的视觉区域。
  • 克服单层注意力机制在复杂图像中无法精确定位与答案相关区域的局限性。
  • 开发一种深层注意力架构,通过条件于问题的查询,在多层中逐步优化视觉关注区域。
  • 通过逐步优化注意力机制,在多样化图像问答基准上实现显著性能提升。
  • 可视化并分析注意力层如何逐步演化,以突出显示相关视觉线索。

提出的方法

  • 使用卷积神经网络(CNN)从图像中提取区域级视觉特征,生成14×14的特征图。
  • 使用CNN或LSTM对输入问题进行编码,生成语义问题向量。
  • 应用多层注意力机制,其中每一层使用问题向量查询图像特征,并基于已注意的区域来优化查询。
  • 在第一层中,问题向量查询图像,生成图像区域的初始注意力分布。
  • 在后续层中,使用由原始问题与已注意特征组合生成的优化查询,进一步聚焦于更相关的区域。
  • 通过将最高层的注意力图像特征与最终查询向量结合,使用分类器预测最终答案。

实验结果

研究问题

  • RQ1多层注意力机制是否能通过在视觉特征上实现渐进式推理,提升图像问答性能?
  • RQ2与单层注意力模型相比,堆叠注意力层在定位与答案相关图像区域方面有何影响?
  • RQ3分层注意力机制在多样化图像问答基准上的性能提升程度如何?
  • RQ4在推理的各个阶段,注意力层学习优先关注哪些类型的视觉和语言线索?
  • RQ5注意力分布如何随层的变化而演化?其演化是否与人类对相关图像区域的理解一致?

主要发现

  • 在COCO-QA数据集上,两层堆叠注意力网络(SAN)相比单层版本平均提升2.2%,其中定位任务提升1.3%,物体识别任务提升1.0%。
  • 在VQA数据集上,两层SAN在'Other'问题类型上提升1.4%,在'Number'问题类型上提升0.2%,而在'Yes/No'问题上无提升。
  • SAN在四个图像问答基准上达到最先进性能,显著优于此前的SOTA方法,包括基于LSTM的模型和早期注意力机制。
  • 可视化结果显示,第一层注意力激活于问题中提及的多个对象和概念,而第二层则将焦点集中于与答案直接相关的区域。
  • 错误分析显示,42%的错误源于视觉关注正确但答案预测错误,31%的错误涉及标签模糊,模型预测在视觉上具有合理性。
  • 模型在'Yes/No'问题上的改进有限,表明此类答案高度依赖于问题本身,对视觉特征优化不敏感。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。