Skip to main content
QUICK REVIEW

[论文解读] Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

Peter Anderson, Xiaodong He|arXiv (Cornell University)|Jul 25, 2017
Multimodal Machine Learning Applications参考文献 55被引用 94
一句话总结

本论文提出了一种将自下而上(来自 Faster R-CNN 的区域提议)与自上而下的注意力机制相结合的方法,使得能够对显著图像区域进行注意以用于图像描述和 VQA。该方法在 MSCOCO captioning 上达到最先进的结果,并在 2017 年 VQA Challenge 中夺冠。

ABSTRACT

Top-down visual attention mechanisms have been used extensively in image captioning and visual question answering (VQA) to enable deeper image understanding through fine-grained analysis and even multiple steps of reasoning. In this work, we propose a combined bottom-up and top-down attention mechanism that enables attention to be calculated at the level of objects and other salient image regions. This is the natural basis for attention to be considered. Within our approach, the bottom-up mechanism (based on Faster R-CNN) proposes image regions, each with an associated feature vector, while the top-down mechanism determines feature weightings. Applying this approach to image captioning, our results on the MSCOCO test server establish a new state-of-the-art for the task, achieving CIDEr / SPICE / BLEU-4 scores of 117.9, 21.5 and 36.9, respectively. Demonstrating the broad applicability of the method, applying the same approach to VQA we obtain first place in the 2017 VQA Challenge.

研究动机与目标

  • 以对象和显著区域层面的注意力取代固定网格的注意力来理解图像内容。
  • 开发一种自下而上的注意力机制,通过 Faster R-CNN 提出基于区域的特征。
  • 将自下而上的区域与自上而下的注意力机制整合用于描述生成和 VQA 以提升性能。
  • 证明基于区域的注意力在标准评估指标上都能带来改进。

提出的方法

  • 将图像特征 V 定义为由自下而上 Faster R-CNN(使用 ResNet-101)产生的一组区域特征,选择 objectness > threshold 的区域。
  • 使用自上而下的注意力机制根据任务上下文(描述生成或 VQA)对 V 计算注意力权重。
  • 对于描述生成,使用两个 LSTM(一个用于自上而下的注意力,一个用于语言建模)对 V 进行软注意力。
  • 对于 VQA,实施一个联合多模态嵌入,具有注意力加权的图像特征,以在固定词汇表上预测答案。
  • 用交叉熵损失进行训练,并通过 Self-Critical Sequence Training (SCST) 来优化 CIDEr 分数,从而提升性能。
  • 可选地与 ResNet 基线进行比较,以量化自下而上注意力带来的增益。

实验结果

研究问题

  • RQ1相比网格注意力,基于区域的自下而上注意力对图像描述质量有何影响?
  • RQ2同一自下而上注意力框架是否也能提升 Visual Question Answering 的性能?
  • RQ3对象级注意力如何影响描述与 VQA 中对象、属性和关系的识别?

主要发现

  • 基于区域的注意力在 MSCOCO 的图像描述任务中在 CIDEr、SPICE、BLEU-4 等评估指标上取得显著提升,达到最先进的结果。
  • 在 MSCOCO Karpathy 测试集上,Up-Down(带有自下而上注意力)相较 ResNet 基线在各指标上提升 3–8%。
  • 带有基于区域注意力的 VQA 在 2017 VQA Challenge 中获得第一名,在 VQA v2.0 测试服务器的总体准确率为 70.3%。
  • 定性注意力可视化显示模型对细粒度细节与大区域均有关注,从而实现更好的词级对齐。
  • 相对于 ResNet 基线,Up-Down 模型在 VQA v2.0 验证集和测试集上提升 Yes/No、Number 及 Other 问题类型的表现。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。