[论文解读] Stacked Cross Attention for Image-Text Matching
SC A N 引入 Stacked Cross Attention (SCAN) 来对齐图像区域和句子单词,通过对潜在区域-单词对齐进行双重注意力和 LogSumExp 池化,在 Flickr30K 和 MS-COCO 上实现最先进的图像-文本匹配。
In this paper, we study the problem of image-text matching. Inferring the latent semantic alignment between objects or other salient stuff (e.g. snow, sky, lawn) and the corresponding words in sentences allows to capture fine-grained interplay between vision and language, and makes image-text matching more interpretable. Prior work either simply aggregates the similarity of all possible pairs of regions and words without attending differentially to more and less important words or regions, or uses a multi-step attentional process to capture limited number of semantic alignments which is less interpretable. In this paper, we present Stacked Cross Attention to discover the full latent alignments using both image regions and words in a sentence as context and infer image-text similarity. Our approach achieves the state-of-the-art results on the MS-COCO and Flickr30K datasets. On Flickr30K, our approach outperforms the current best methods by 22.1% relatively in text retrieval from image query, and 18.2% relatively in image retrieval with text query (based on Recall@1). On MS-COCO, our approach improves sentence retrieval by 17.8% relatively and image retrieval by 16.6% relatively (based on Recall@1 using the 5K test set). Code has been made available at: https://github.com/kuanghuei/SCAN.
研究动机与目标
- 通过推断潜在的区域-单词对齐来实现可解释的跨模态检索,推动细粒度的图像-文本匹配。
- 开发一个两阶段注意力机制,使用图像与句子的上下文来权衡区域和单词。
- 证明发现所有潜在对齐比固定步长注意力方法能提升检索性能。
提出的方法
- 用 Faster R-CNN 检出底部区域来表示图像,具有 2048 维特征。
- 用双向 GRU 为单词嵌入在共享的 1024 维空间中表示句子。
- 提出两种互补形式的 Stacked Cross Attention:Image-Text(对每个图像区域关注单词,然后对区域进行加权)和 Text-Image(对每个单词关注图像区域,然后对单词进行加权)。
- 在区域/单词特征之间使用余弦相似度,随后使用 LogSumExp 池化计算最终的图像-句子相似度。
- 使用硬负三元组损失进行训练,以在每个小批量中最大化与最难负样本的间隔。
- 提供消融研究,比较 Sum-Max 基线、AVG/LSE 池化,以及双向 GRU 的影响。
实验结果
研究问题
- RQ1潜在的、具有上下文感知的区域与句子单词对齐是否可以在一个联合嵌入空间中被发现,从而提升图像-文本检索?
- RQ2双重注意力形式(图像引导的单词注意力和单词引导的图像注意力)是否为跨模态匹配带来互补收益?
- RQ3通过堆叠式交叉注意力在所有潜在对齐上进行搜索,是否优于固定步长或一次性注意力方法?
主要发现
- SCAN 在 Flickr30K 和 MS-COCO 的多项指标上实现了最先进的召回率。
- 在 Flickr30K 上,SCAN i-t AVG 达到句子检索的 R@1 为 67.9,图像检索的 R@1 为 74.2;SCAN t-i AVG 达到句子检索的 R@1 为 61.8,图像检索的 R@1 为 74.4(表 1 中给出示例)。
- 将 SCAN 的变体(例如 t-i AVG + i-t LSE)集成后,得到 Flickr30K 图像检索的最佳结果,R@1 = 48.6。
- 在 MS-COCO(5K 测试集)上,SCAN t-i AVG + i-t LSE 将句子检索的 R@1 提升了 17.8%,图像检索的 R@1 提升了 16.6%(相对)相对于 SCO。
- 消融研究显示硬负样本和 Stacked Cross Attention 设计对性能提升具有关键作用。
- 可视化结果证实了可解释的注意力图,将“boy”、“holding”和“tennis racket”等特定词语与对应的图像区域对齐。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。