QUICK REVIEW

[论文解读] Normalized and Geometry-Aware Self-Attention Network for Image Captioning

Longteng Guo, Jing Liu|arXiv (Cornell University)|Mar 19, 2020

Multimodal Machine Learning Applications参考文献 44被引用 26

一句话总结

本论文提出了归一化自注意力（NSA）和几何感知自注意力（GSA），以增强图像字幕生成中的自注意力机制。NSA通过在自注意力内部对隐藏激活进行归一化，减少内部协变量转移；GSA则显式建模图像中物体之间的相对几何关系。NG-SAN模型在MS-COCO数据集上取得了128.6的新SOTA CIDEr分数，在视频字幕、机器翻译和视觉问题回答任务中也表现出一致的性能提升。

ABSTRACT

Self-attention (SA) network has shown profound value in image captioning. In this paper, we improve SA from two aspects to promote the performance of image captioning. First, we propose Normalized Self-Attention (NSA), a reparameterization of SA that brings the benefits of normalization inside SA. While normalization is previously only applied outside SA, we introduce a novel normalization method and demonstrate that it is both possible and beneficial to perform it on the hidden activations inside SA. Second, to compensate for the major limit of Transformer that it fails to model the geometry structure of the input objects, we propose a class of Geometry-aware Self-Attention (GSA) that extends SA to explicitly and efficiently consider the relative geometry relations between the objects in the image. To construct our image captioning model, we combine the two modules and apply it to the vanilla self-attention network. We extensively evaluate our proposals on MS-COCO image captioning dataset and superior results are achieved when comparing to state-of-the-art approaches. Further experiments on three challenging tasks, i.e. video captioning, machine translation, and visual question answering, show the generality of our methods.

研究动机与目标

解决自注意力网络中的内部协变量转移问题，该问题阻碍了有效训练与优化。
通过显式建模图像中物体之间的几何关系来提升图像字幕生成性能，而标准自注意力机制忽略了这一点。
开发一种通用的注意力机制，可在图像字幕生成之外的多种视觉-语言任务中提升性能。
证明在自注意力层内部应用归一化——此前仅在外部应用——可显著提升模型稳定性和性能。
构建一个统一框架，结合归一化与几何归纳偏置，以增强基于注意力模型的视觉表征学习能力。

提出的方法

提出归一化自注意力（NSA），对自注意力进行重参数化，通过一种新颖的归一化技术直接作用于注意力机制内部的隐藏激活，以稳定训练并减少内部协变量转移。
引入几何感知自注意力（GSA），通过添加依赖于物体特征相对空间位置与尺度的可学习几何偏置，扩展标准自注意力机制，使模型能够关注空间上一致的物体组。
将NSA与GSA结合为统一模块NG-SAN，替换基于Transformer的图像字幕模型编码器中的原始自注意力模块。
在视频字幕和机器翻译任务的Transformer编码器中应用NSA，将标准自注意力替换为NSA，以实现最小计算开销下的泛化性能提升。
在视觉问题回答模型MCAN的所有自注意力模块中替换为GSA，以向视觉-语言推理过程注入几何归纳偏置。
使用标准基准对所提模型进行训练与评估：MS-COCO用于图像字幕，VATEX用于视频字幕，WMT 2014 En-De用于机器翻译，VQA-v2用于视觉问题回答。

实验结果

研究问题

RQ1自注意力层内部的归一化能否减少内部协变量转移，并提升视觉-语言模型的训练稳定性和性能？
RQ2显式建模图像中物体之间的相对几何关系能否增强视觉表征学习并提升图像字幕生成性能？
RQ3归一化与几何感知自注意力的结合是否能泛化到图像字幕之外的其他视觉-语言任务？
RQ4NSA与GSA能否在对现有Transformer模型进行最小架构修改和计算成本增加的前提下，实现一致的性能提升？
RQ5NSA与GSA在下游任务（如视频字幕、机器翻译和视觉问题回答）中的性能提升程度如何？

主要发现

NG-SAN模型在MS-COCO图像字幕基准上取得了128.6的新SOTA CIDEr分数，超越了此前最佳单模型结果125.5。
NSA使Transformer基线在VATEX视频字幕数据集上的CIDEr得分提升3.7分，较VATEX的LSTM模型高出11.4分。
NSA在WMT 2014英德翻译任务中，使BLEU分数在不增加参数量的前提下，较Transformer-Base基线提升0.36分。
GSA将MCAN在VQA-v2测试-std上的准确率从70.83%提升至71.28%，证明其在视觉推理任务中的有效性。
NSA与GSA的结合在多种视觉-语言任务中均带来一致的性能增益，证实了所提模块的通用性与鲁棒性。
消融实验证实，NSA与GSA在性能提升中均发挥独立且协同的作用：NSA改善优化过程，GSA增强结构归纳偏置。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。