Skip to main content
QUICK REVIEW

[论文解读] Attention on Attention for Image Captioning

Lun Huang, Wenmin Wang|arXiv (Cornell University)|Aug 19, 2019
Multimodal Machine Learning Applications参考文献 48被引用 51
一句话总结

本文引入 Attention on Attention (AoA),一种评估注意力结果与查询之间相关性的模块,并将其应用于编码器和解码器,形成 AoANet,在 MS COCO 上实现最先进的 CIDEr-D 分数。

ABSTRACT

Attention mechanisms are widely used in current encoder/decoder frameworks of image captioning, where a weighted average on encoded vectors is generated at each time step to guide the caption decoding process. However, the decoder has little idea of whether or how well the attended vector and the given attention query are related, which could make the decoder give misled results. In this paper, we propose an Attention on Attention (AoA) module, which extends the conventional attention mechanisms to determine the relevance between attention results and queries. AoA first generates an information vector and an attention gate using the attention result and the current context, then adds another attention by applying element-wise multiplication to them and finally obtains the attended information, the expected useful knowledge. We apply AoA to both the encoder and the decoder of our image captioning model, which we name as AoA Network (AoANet). Experiments show that AoANet outperforms all previously published methods and achieves a new state-of-the-art performance of 129.8 CIDEr-D score on MS COCO Karpathy offline test split and 129.6 CIDEr-D (C40) score on the official online testing server. Code is available at https://github.com/husthuaan/AoANet.

研究动机与目标

  • 激励并解决图像字幕生成中标准注意力下的被关注向量与查询之间的错位问题。
  • 提出 AoA 作为对传统注意力的扩展,用以评估并利用被关注信息的相关性。
  • 通过将 AoA 集成到图像编码器的改进和字幕解码器中,开发 AoANet。
  • 在 MS COCO 上评估性能并展示最先进的结果。

提出的方法

  • 定义 Attention on Attention (AoA),它从注意力结果和当前上下文生成信息向量和注意门控,然后应用门控的逐元素注意以获得被关注信息。
  • 将 AoA 应用于编码器和解码器:编码器在带自注意力的改进模块中使用 AoA 来建模对象关系;解码器在生成字幕时使用 AoA 过滤并强调有用的注意力输出。
  • 在编码器改进中使用多头自注意力,随后进行带残差连接和层归一化的 AoA;解码器使用带 AoA 基于上下文向量的 LSTM。
  • 使用交叉熵损失训练,然后通过 Self-Critical Sequence Training (SCST) 进行 CIDEr-D 优化;输入使用投影到 1024 维的 Faster-RCNN bottom-up 特征。

实验结果

研究问题

  • RQ1AoA 能否在图像字幕生成中可靠地衡量并强制注意力结果与解码上下文之间的相关性?
  • RQ2在编码器中应用 AoA 是否能改善对象关系建模,在解码器中应用 AoA 是否能在字幕生成过程中减少被误导的注意力?
  • RQ3与先前的最先进方法相比,AoANet 在标准 MS COCO 基准上的表现如何?

主要发现

  • 单一 AoANet 模型在离线 MS COCO(XE 训练)上达到 119.8 CIDEr-D,超过以前的单模型方法。
  • 将四个 AoANet 模型进行集成,在离线 MS COCO(CIDEr-D 优化)上达到 132.0 CIDEr-D。
  • 在官方在线服务器上,AoANet 达到 129.6 CIDEr-D (C40),并在大多数指标中领先。
  • 定性与消融分析显示 AoA 有助于减少被误导的注意力,并提升对象计数与交互理解(例如长颈鹿上的鸟、网球拍)。
  • 在 MSR-VTT 上的泛化实验表明 AoA 可在视频字幕生成中实现类似的增益。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。