[论文解读] Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning
本文提出了一种用于图像字幕生成的自适应注意力机制,引入了一个可学习的视觉哨兵(visual sentinel)——一种备用表示,用于决定何时应关注图像,何时应依赖语言建模。通过动态学习注意力门控,该模型在 COCO 和 Flickr30K 数据集上实现了最先进性能,提升了字幕质量与注意力可解释性,且无需外部语言特征。
Attention-based neural encoder-decoder frameworks have been widely adopted for image captioning. Most methods force visual attention to be active for every generated word. However, the decoder likely requires little to no visual information from the image to predict non-visual words such as "the" and "of". Other words that may seem visual can often be predicted reliably just from the language model e.g., "sign" after "behind a red stop" or "phone" following "talking on a cell". In this paper, we propose a novel adaptive attention model with a visual sentinel. At each time step, our model decides whether to attend to the image (and if so, to which regions) or to the visual sentinel. The model decides whether to attend to the image and where, in order to extract meaningful information for sequential word generation. We test our method on the COCO image captioning 2015 challenge dataset and Flickr30K. Our approach sets the new state-of-the-art by a significant margin.
研究动机与目标
- 解决固定注意力机制的局限性,即强制在每个解码步骤都进行视觉注意力,即使对于非视觉词如 'the' 或 'of' 也是如此。
- 使模型能够自主决定何时使用视觉信号,何时依赖语言建模,从而提升效率与相关性。
- 引入一种新颖的视觉哨兵作为潜在记忆备用表示,增强解码器在无视觉输入时生成非视觉词的能力。
- 通过视觉定位概率和弱监督定位方法评估模型的注意力行为,证明其可解释性得到提升。
- 在不依赖句法结构或外部知识的前提下,实现在标准图像字幕基准上的最先进性能。
提出的方法
- 提出一种带有视觉哨兵向量的改进LSTM,该向量作为额外的潜在表示,在无需视觉注意力时充当备用选项。
- 引入哨兵门控机制,学习控制每个时间步中关注图像与使用视觉哨兵之间的平衡。
- 采用空间注意力机制,在粗粒度的 $7 \times 7$ 特征图上生成注意力图,以定位相关图像区域。
- 使用可微分的门控机制,根据当前隐藏状态动态决定是关注图像特征还是视觉哨兵。
- 通过注意力图进行弱监督定位,以 IOU 为指标评估空间注意力的准确性。
- 在 COCO 和 Flickr30K 数据集上端到端训练,使用交叉熵损失优化字幕生成。
实验结果
研究问题
- RQ1模型能否自主学习决定何时关注图像、何时依赖内部语言建模,从而提升字幕质量?
- RQ2引入视觉哨兵作为备用表示是否能提升图像字幕生成的性能与注意力可解释性?
- RQ3模型的注意力行为与词义(如视觉词与非视觉词)之间是否存在相关性?
- RQ4模型的注意力图能否有效用于图像区域的弱监督定位?
- RQ5与固定注意力机制相比,自适应注意力是否能带来更高的空间定位准确率?
主要发现
- 所提出的自适应注意力模型在 COCO 2015 和 Flickr30K 图像字幕基准测试中实现了最先进性能。
- 模型在生成视觉词(如 'cat'、'red'、'dishes')时更倾向于关注图像,而在生成非视觉词(如 'the'、'of'、'to')时则减少关注,表现出语义意识。
- 对于具有高语言相关性的词(如 'cell' 后的 'phone'),注意力频率降低,表明模型已学习到语言依赖关系。
- 自适应注意力模型的平均定位准确率为 0.373 IOU,略高于空间注意力基线(0.362 IOU),表明空间注意力性能有所提升。
- 模型在生成 'crossing' 时比 'crossed' 更多地关注图像,反映出对细微语义与句法差异的感知能力。
- 视觉哨兵机制使模型在生成非视觉词时减少了对视觉信号的依赖,从而提升了训练稳定性与注意力聚焦能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。