Skip to main content
QUICK REVIEW

[论文解读] Hierarchical Question-Image Co-Attention for Visual Question Answering

Jiasen Lu, Jianwei Yang|arXiv (Cornell University)|May 31, 2016
Multimodal Machine Learning Applications参考文献 24被引用 1,216
一句话总结

本论文提出一个分层共注意力模型,在字、短语和问题层面对图像区域和问题词进行并行或交替的共注意,以提升视觉问答(VQA)性能。

ABSTRACT

A number of recent works have proposed attention models for Visual Question Answering (VQA) that generate spatial maps highlighting image regions relevant to answering the question. In this paper, we argue that in addition to modeling "where to look" or visual attention, it is equally important to model "what words to listen to" or question attention. We present a novel co-attention model for VQA that jointly reasons about image and question attention. In addition, our model reasons about the question (and consequently the image via the co-attention mechanism) in a hierarchical fashion via a novel 1-dimensional convolution neural networks (CNN). Our model improves the state-of-the-art on the VQA dataset from 60.3% to 60.5%, and from 61.6% to 63.3% on the COCO-QA dataset. By using ResNet, the performance is further improved to 62.1% for VQA and 65.4% for COCO-QA.

研究动机与目标

  • 在VQA中同时激发并解决视觉注意力(看向哪里)和问题注意力(倾听哪些词)的问题。
  • 提出一种共注意力机制,对图像和问题注意力进行联合推理。
  • 引入一个三层级的分层问题表示(词、短语、问题),并采用新颖的短语级卷积-池化策略。
  • 开发并行和交替的共注意力变体,并在大型VQA和COCO-QA数据集上进行验证。

提出的方法

  • 定义图像区域 V 与问题词 Q 之间的多模态亲和力 C。
  • 使用并行共注意(等式 3-5)或交替共注意(第 3.3 节和等式 6)在词、短语和问题层面计算共关注特征。
  • 通过一维卷积神经网络(1-D CNNs)在 unigram、bigram 和 trigram 的窗口上构造短语表示,并进行最大池化(等式 1-2)。
  • 使用词嵌入、短语级 LSTM 和问题级 LSTM 对分层问题表示进行编码(Sec. 3.2)。
  • 通过多层感知机(MLP)对来自所有层次的关注图像和问题特征进行递归融合,以预测最终答案(Eq. 7 和 Sec. 3.4)。
  • 在 VQA 和 COCO-QA 数据集上进行评估,并与最先进的方法进行比较;分析消融实验(Tables 1–3)并提供定性可视化(Fig. 4–6)。

实验结果

研究问题

  • RQ1联合图像-问题的共注意是否能超过仅仅使用视觉注意来提升 VQA 的性能?
  • RQ2引入三层级的分层问题表示(词、短语、问题)是否能提升所关注特征的质量和最终答案?
  • RQ3并行与交替共注意策略在性能和训练稳定性方面相比如何?
  • RQ4短语级卷积-池化与非卷积短语表示相比的影响是什么?

主要发现

  • 在使用 ResNet 特征时,所提出的共注意模型在 VQA 和 COCO-QA 数据集上提升了最先进的结果。
  • 并行共注意通常在 COCO-QA 上表现优于交替共注意,且两者都优于仅使用图像注意的基线。
  • 在每个层次进行共注意的三层级(词、短语、问题)层次结构,相较于没有语言注意的模型有提升,其中最高层级(问题)对性能贡献最大。
  • 短语级卷积-池化自适应地选择有信息量的 n-gram,相较固定大小窗口,提升了短语表示。
  • 消融研究表明去除任意一个注意力层都会降低性能,其中问题级注意力影响最大,表明它与答案预测器的距离最近。
  • 定性可视化展示了可解释的共注意力图,与相关图像区域和问题短语对齐。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。