Skip to main content
QUICK REVIEW

[论文解读] Show, Attend and Tell: Neural Image Caption Generation with Visual Attention

Kelvin Xu, Jimmy Ba|arXiv (Cornell University)|Feb 10, 2015
Multimodal Machine Learning Applications参考文献 52被引用 7,495
一句话总结

引入了一种基于注意力的图像描述模型,具备软(确定性)和硬(随机性)注意力机制,端到端训练,在 Flickr8k、Flickr30k 和 MS COCO 上实现了最先进的结果,并具有可解释的视觉注意力图。

ABSTRACT

Inspired by recent work in machine translation and object detection, we introduce an attention based model that automatically learns to describe the content of images. We describe how we can train this model in a deterministic manner using standard backpropagation techniques and stochastically by maximizing a variational lower bound. We also show through visualization how the model is able to automatically learn to fix its gaze on salient objects while generating the corresponding words in the output sequence. We validate the use of attention with state-of-the-art performance on three benchmark datasets: Flickr8k, Flickr30k and MS COCO.

研究动机与目标

  • 通过利用视觉注意力将图像区域与生成的单词对齐,激励并解决图像描述问题。
  • 在统一的编码-解码框架内开发两种注意力变体(软/确定性和硬/随机性)。
  • 通过注意力可视化和定量基准,展示端到端可训练性与可解释性。

提出的方法

  • 编码器:从较低层的卷积网络提取特征注释以保留空间细节(a_i ∈ R^D,具有 L 个位置)。
  • 解码器:基于 LSTM 的语言模型,在生成描述时以从对图像注释的注意力得到的动态上下文向量 z_hat_t 为条件。
  • 注意力机制:计算 e_ti = f_att(a_i, h_{t-1}) 并归一化得到注意力权重 alpha_ti;上下文向量 z_hat_t = phi({a_i}, {alpha_ti})。
  • 软注意力:使用期望上下文向量(确定性)进行端到端的可微分训练并进行反向传播;包含双重随机性正则化,鼓励在跨时间对所有区域进行注意。
  • 硬注意力:将注意位置 s_t 视为潜变量;通过蒙特卡洛采样和方差降低的 REINFORCE 最大化变分下界 L_s;包含基线项和熵项。
  • 训练:使用 SGD 变体(RMSProp/Adam)进行端到端优化,预训练的 ConvNet 特征(Oxford VGG/Imagenet),以及固定词汇表 10,000;在 Flickr8k、Flickr30k 和 COCO 上使用 BLEU 和 METEOR 进行评估。

实验结果

研究问题

  • RQ1注意力机制是否能够在没有显式对象检测器的情况下将生成的单词与相关图像区域对齐?
  • RQ2就标题质量和可解释性而言,软(确定性)和硬(随机性)注意力变体有何区别?
  • RQ3将视觉注意力纳入是否能在标准图像描述数据集上提升到最新水平?
  • RQ4通过在生成描述过程中对模型的注意力随时间的可视化可以获得哪些洞见?

主要发现

  • 基于注意力的模型在 Flickr8k、Flickr30k 和 MS COCO 上在 BLEU 和 METEOR 指标上达到最新水平。
  • 软注意力实现了与标准反向传播的端到端训练,并提供与显著图像区域对齐的可解释注意力图。
  • 硬注意力学习离散的聚焦位置,并通过变分下界(REINFORCE)及方差减小技术进行优化。
  • 双随机正则化和一个门控标量 beta 提升描述质量,并鼓励对整幅图像进行全面的视觉探索。
  • 该模型使用较低卷积层的 CNN 特征以保留空间信息,从而产生比面向对象的描述更具描述性的标题。
  • 定性的可视化展示了关注区域与生成单词之间的对齐,提供了对描述过程的可解释性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。