QUICK REVIEW

[论文解读] Attention Correctness in Neural Image Captioning

Chenxi Liu, Junhua Mao|arXiv (Cornell University)|May 31, 2016

Multimodal Machine Learning Applications参考文献 32被引用 73

一句话总结

本文通过测量模型生成的注意力图与人类标注的图像区域到字幕实体对应关系之间的对齐程度，提出了一项定量度量方法，用于评估神经图像字幕模型中注意力正确性的程度。通过引入显式监督——在存在区域-字幕对齐时为强监督，仅提供物体分割掩码和类别标签时为弱监督——作者在Flickr30k和COCO数据集上显著提升了注意力图与人类标注的一致性以及整体字幕生成质量。

ABSTRACT

Attention mechanisms have recently been introduced in deep learning for various tasks in natural language processing and computer vision. But despite their popularity, the "correctness" of the implicitly-learned attention maps has only been assessed qualitatively by visualization of several examples. In this paper we focus on evaluating and improving the correctness of attention in neural image captioning models. Specifically, we propose a quantitative evaluation metric for the consistency between the generated attention maps and human annotations, using recently released datasets with alignment between regions in images and entities in captions. We then propose novel models with different levels of explicit supervision for learning attention maps during training. The supervision can be strong when alignment between regions and caption entities are available, or weak when only object segments and categories are provided. We show on the popular Flickr30k and COCO datasets that introducing supervision of attention maps during training solidly improves both attention correctness and caption quality, showing the promise of making machine perception more human-like.

研究动机与目标

量化评估神经图像字幕模型在生成字幕时，对特定词语或短语所对应图像区域的注意力一致性。
探究更接近人类注意力模式的注意力图是否能带来更好的字幕生成性能。
开发一种训练框架，通过使用强监督（区域-字幕对齐）或弱监督（物体分割掩码与类别标签）标注，显式提升注意力正确性。
弥合视觉字幕模型中机器注意力与人类感知之间的差距。

提出的方法

提出一种基于预测注意力图与字幕中名词短语对应的人类标注图像区域之间重叠程度的新型注意力正确性定量度量方法。
使用Flickr30k Entities数据集作为评估与监督的基准，提供真实世界图像区域到实体的对齐关系。
引入一种监督注意力机制，通过强监督（直接的区域-实体对齐）或弱监督（带类别标签的物体分割掩码）显式训练注意力模块。
采用双分支结构，使注意力模块通过交叉熵损失训练，以预测与真实标签对齐的注意力图。
在标准编码器-解码器框架中应用监督注意力模块，使用卷积神经网络（CNN）进行图像特征提取，使用循环神经网络（RNN）进行字幕生成。
使用BLEU和METEOR等标准指标，评估监督对注意力正确性与下游字幕生成性能的影响。

实验结果

研究问题

RQ1隐式注意力模型生成的注意力图与人类标注的对应于字幕中词语或短语的图像区域之间的一致性如何？
RQ2提升注意力正确性在多大程度上能改善图像字幕生成性能？
RQ3仅使用物体分割掩码和类别标签的弱监督，是否仍能显著提升注意力正确性与字幕质量？
RQ4注意力正确性与生成字幕质量之间是否存在正相关关系？

主要发现

隐式注意力模型优于均匀注意力基线，但仍与人类标注存在显著不一致性，表明仍有改进空间。
使用强监督（基于区域-字幕对齐）的监督注意力模型在注意力正确性方面显著优于隐式模型。
在Flickr30k数据集上，监督模型相比隐式基线，BLEU-4提升0.9分，METEOR提升0.21分。
在COCO数据集上，监督模型相比隐式基线，BLEU-4提升0.7分，METEOR提升0.32分。
观察到注意力正确性与字幕质量之间存在正相关关系：对于高准确度注意力区域，BLEU-4达到28.1，而低准确度区域仅为25.4。
即使采用弱监督（仅物体分割掩码与类别标签），模型在注意力正确性与字幕质量方面仍取得显著提升，证明了该方法的鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。