Skip to main content
QUICK REVIEW

[论文解读] Finding beans in burgers: Deep semantic-visual embedding with localization

Martin Engilberge, Louis Chevallier|arXiv (Cornell University)|Apr 5, 2018
Multimodal Machine Learning Applications参考文献 47被引用 88
一句话总结

本文提出一种两路径的语义-视觉嵌入,具有完全卷积的视觉路径和从零开始训练的文本路径,在跨模态检索方面达到最先进的水平,并在图像中提供弱监督的短语定位。

ABSTRACT

Several works have proposed to learn a two-path neural network that maps images and texts, respectively, to a same shared Euclidean space where geometry captures useful semantic relationships. Such a multi-modal embedding can be trained and used for various tasks, notably image captioning. In the present work, we introduce a new architecture of this type, with a visual path that leverages recent space-aware pooling mechanisms. Combined with a textual path which is jointly trained from scratch, our semantic-visual embedding offers a versatile model. Once trained under the supervision of captioned images, it yields new state-of-the-art performance on cross-modal retrieval. It also allows the localization of new concepts from the embedding space into any input image, delivering state-of-the-art result on the visual grounding of phrases.

研究动机与目标

  • 激励并学习一个用于图像和文本的联合嵌入,以在共享空间中捕捉语义关系。
  • 在视觉路径中引入一个空间感知的、选择性空间池化,以在不依赖区域提议的情况下改进特征提取。
  • 从头训练文本编码器,同时利用预训练的 word2vec 进行单词表示。
  • 通过从嵌入空间派生热力图来实现对图像中概念的定位,无需显式的区域级监督。

提出的方法

  • 使用双-path网络:一个全卷积的视觉路径(以 ResNet-152 为基础,1x1 适配、选择性空间池化、最终投影),输出 x ∈ R^d。
  • 文本路径使用 word2vec 输入对句子进行编码,随后是一个简单的 SRU 编码器,输出 v ∈ R^d。
  • 使用对比三元组排序损失并结合基于批次的困难负样本挖掘来对齐图像和标题嵌入。
  • 通过一个学习得到的 1x1 投影将嵌入向量映射到一组特征图,然后用文本嵌入前 k 个分量的权重来加权组合这些图,形成热力图来实现定位。
  • 采用受弱监督定位启发的选择性空间池化(负证据)以在视觉路径中保留空间信息。
  • 分两阶段训练:先用 ImageNet 初始化对视觉投影进行预训练,然后在 MS-COCO 上进行端到端微调,使用 Adam 优化器。

实验结果

研究问题

  • RQ1在不依赖区域提议的情况下,使用带有空间感知池化的联合训练的图像-文本嵌入是否能实现最先进的跨模态检索?
  • RQ2嵌入空间是否能通过弱监督定位在图像中定位任意文本概念(包括未见过的概念)?
  • RQ3与随机负样本相比,困难负样本挖掘对跨模态嵌入性能有何影响?
  • RQ4将最终池化替换为全局平均池化对检索和定位性能有何影响?
  • RQ5在 MS-COCO 上训练的模型迁移到其他数据集如 Flickr-30K 和 Visual Genome 进行定位任务的效果如何?

主要发现

  • 在 MS-COCO 上实现了最先进的跨模态检索,在 R@1、R@5 和 R@10 指标上超越了先前方法。
  • 在基于 MS-COCO 的评估中展示了强大的短语定位能力,指向游戏准确率为 33.8%,超越了先前的方法。
  • 可以从嵌入空间推导出定位热力图以在图像中定位概念,包括未见过的概念,无需区域提议。
  • 困难负样本挖掘在检索性能上显著优于仅使用随机负样本。
  • 该模型对 Flickr-30K 的迁移性良好,并具备定性的零样本定位能力,仍有进一步微调的空间。
  • 用全局平均池化替代选择性池化在各任务上会降低性能(尽管幅度适中)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。