Skip to main content
QUICK REVIEW

[论文解读] Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models

Jiuxiang Gu, Jianfei Cai|arXiv (Cornell University)|Nov 17, 2017
Multimodal Machine Learning Applications参考文献 30被引用 37
一句话总结

本文提出了一种新颖的跨模态检索框架,通过将图像到文本和文本到图像的生成模型整合到联合嵌入空间中,增强了文本与视觉的匹配能力。通过结合全局抽象表征与通过生成建模学习到的局部、具身特征,该方法在MSCOCO数据集上实现了最先进性能,在图像到文本和文本到图像检索任务中均优于先前方法。

ABSTRACT

Textual-visual cross-modal retrieval has been a hot research topic in both computer vision and natural language processing communities. Learning appropriate representations for multi-modal data is crucial for the cross-modal retrieval performance. Unlike existing image-text retrieval approaches that embed image-text pairs as single feature vectors in a common representational space, we propose to incorporate generative processes into the cross-modal feature embedding, through which we are able to learn not only the global abstract features but also the local grounded features. Extensive experiments show that our framework can well match images and sentences with complex content, and achieve the state-of-the-art cross-modal retrieval results on MSCOCO dataset.

研究动机与目标

  • 为解决文本-视觉检索中的模态异构性挑战,通过学习更鲁棒、具身的表征来提升性能。
  • 通过生成建模引入局部、对象级别的对齐,超越仅依赖全局语义嵌入的检索性能。
  • 证明结合抽象与具身表征可在复杂真实数据上实现更优的跨模态匹配。
  • 在MSCOCO和Flickr30K等基准数据集上验证该框架的有效性。

提出的方法

  • 该框架采用双流架构:一者用于全局抽象表征,另一者通过生成建模实现局部具身表征。
  • 引入两种条件生成模型——图像到文本和文本到图像——用于从编码表征中重建真实模态。
  • 模型使用最大边缘排序损失来优化匹配图像-文本对之间的相似性,并惩罚不匹配对。
  • 最终相关性分数结合抽象与具身表征进行匹配,增强细粒度对齐。
  • 词嵌入在训练过程中联合学习,提升词语的语义与视觉具身性。
  • 该方法通过对比学习端到端训练,结合排序损失与重建损失。

实验结果

研究问题

  • RQ1生成建模能否改善跨模态检索中图像与文本之间的局部细粒度对齐?
  • RQ2结合抽象与具身表征是否优于仅使用抽象表征的检索性能?
  • RQ3该模型在多大程度上能生成反映输入查询语义内容的合理图像或字幕?
  • RQ4该方法在标准基准上的表现相较于现有最先进模型有多大优势?

主要发现

  • 在MSCOCO 1k测试集上,所提出的GXN (i2t+t2i) 模型在图像到文本检索中达到68.5%的R@1,文本到图像检索中达到56.6%,优于先前方法。
  • 在1k测试集上,该模型在R@1与R@10指标上的总和达到317.5,显著超过此前最先进方法的304.6。
  • 在5k测试集上,该模型在图像到文本检索中达到42.0% R@1与84.7% R@10,在文本到图像检索中达到31.7% R@1与74.6% R@10,表现出强大的泛化能力。
  • 在Flickr30K上,该模型在图像到文本检索中达到56.8% R@1与89.6% R@10,在文本到图像检索中达到41.5% R@1与80.1% R@10,展现出跨数据集的鲁棒性。
  • 定性结果表明,尽管复杂场景下的生成图像质量有限,但其保留了合理的形状、颜色与背景,表明模型已学习到语言与图像之间的对齐关系。
  • 词嵌入可视化结果证实,GXN (i2t+t2i) 学习到了更具语义与视觉具身性的词表示,例如将“eats”与“stares”等词聚类得更近。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。