QUICK REVIEW

[论文解读] Seeing with Humans: Gaze-Assisted Neural Image Captioning

Yusuke Sugano, Andreas Bulling|arXiv (Cornell University)|Aug 18, 2016

Multimodal Machine Learning Applications参考文献 55被引用 49

一句话总结

本文提出了一种基于眼球注视的神经图像字幕生成模型，将人类眼球注视数据整合到基于LSTM的字幕生成架构中的分割注意力机制中。通过选择性地关注注视区域和非注视区域，该模型在COCO/SALICON数据集上提升了字幕生成性能，表明人类注视可补充机器注意力，实现对场景的全面理解。

ABSTRACT

Gaze reflects how humans process visual scenes and is therefore increasingly used in computer vision systems. Previous works demonstrated the potential of gaze for object-centric tasks, such as object localization and recognition, but it remains unclear if gaze can also be beneficial for scene-centric tasks, such as image captioning. We present a new perspective on gaze-assisted image captioning by studying the interplay between human gaze and the attention mechanism of deep neural networks. Using a public large-scale gaze dataset, we first assess the relationship between state-of-the-art object and scene recognition models, bottom-up visual saliency, and human gaze. We then propose a novel split attention model for image captioning. Our model integrates human gaze information into an attention-based long short-term memory architecture, and allows the algorithm to allocate attention selectively to both fixated and non-fixated image regions. Through evaluation on the COCO/SALICON datasets we show that our method improves image captioning performance and that gaze can complement machine attention for semantic scene understanding tasks.

研究动机与目标

探究人类注视是否能在图像字幕等以场景为中心的任务中提升性能，而不仅限于以物体为中心的应用。
分析人类注视、基于深度学习的识别模型与自底向上的视觉显著性之间的关系。
开发一种新颖的眼球注视辅助图像字幕模型，通过分割注意力机制利用注视区域与非注视区域。
在大规模基准数据集上评估所提模型与基线注意力模型及显著性模型的性能表现。
探索眼球注视作为视觉-语言任务中注意力机制的监督信号的潜力。

提出的方法

使用SALICON数据集中的人类注视数据，将注视点表示为图像上的空间热力图。
提出一种分割注意力机制，将注意力计算分为两个分支：一个聚焦于眼球注视区域，另一个聚焦于非注视区域。
将眼球注视热力图与预训练卷积神经网络（如VGG-19）提取的特征图融合，以引导基于LSTM的字幕生成网络中的注意力机制。
通过加权融合基于眼球注视的注意力图与自底向上的注意力图，实现对图像中不同区域的动态注意力分配。
采用交叉熵损失进行端到端训练，并使用束搜索解码生成字幕。
采用多尺度特征表示，以提升对显著与非显著物体的定位能力。

实验结果

研究问题

RQ1与自底向上的显著性相比，人类注视与最先进物体识别与场景识别模型的相关性如何？
RQ2眼球注视信息是否能提升基于注意力的图像字幕模型性能，超越仅依赖自底向上的显著性所能达到的效果？
RQ3整合眼球注视数据是否能使模型关注未被注视但语义上重要的图像区域？
RQ4眼球注视辅助注意力机制在图像字幕任务中与标准注意力机制及显著性模型相比表现如何？
RQ5在杂乱场景中，眼球注视是否有助于描述那些未吸引人类注视的物体？

主要发现

人类注视与物体识别模型的重要区域相关性更强，高于自底向上的显著性模型，表明其在语义注意力中的价值。
所提出的注视辅助模型在COCO/SALICON数据集上优于基线注意力模型，性能提升与最先进显著性模型相当。
该模型成功为未吸引人类注视的物体（如滑雪板、滑雪板）生成描述，证明其具备超越注视焦点的注意力能力。
分割注意力机制提升了对小型但语义重要的物体（如‘风筝’、‘刀’、‘雨伞’、‘消防栓’）的词汇发现能力，F值显著提高。
在背景场景类别（如‘塔’、‘桌子’、‘跑道’）和上下文相关词汇（如‘夜晚’、‘比赛’）上性能略有下降，表明其在捕捉全局上下文方面仍存在局限。
该模型的行为更贴近人类视觉感知，尤其在中央与周边图像元素之间切换注意力时表现更自然，如定性示例所示。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。